AI智能涨跌幅预测 == 瞎猜 ?

在阿布量化报告中有一个模块叫做AI预测涨跌幅, 如下:

很多用户不太明白这个这个预测有什么用, 有些人说: 不太准!, 有些人说: 这就是瞎猜吧, 首先来回答一下:

不太准: 这就对了! 不可能很准, 因为这个预测不是猜涨跌的二分离散猜测, 而是连续值概率分布问题, 而且要是真的预测涨停就涨停, 那....
瞎猜? 不是! 从历史预测数据分析成功的概率大概是13%上下, 属于微概率优势的量化.

下面将分两部分阐述并证明上面的回答

第一部分量化最大的XX

1. 量化最大的自身光环是高数据量的无差别分析

量化交易投资决策属于定量分析，它以历史数据分析为基础，利用数学、统计学等工具高效快速的进行决策
定量分析通过计算机强大的运算能力，在广度上占有绝对优势

2. 量化最大的目标是获取概率优势

这个可以理解为比如使用AI大数据预测中预测的分数

周报预测分数比如说是60, 量化的概率优势就是10, 即下一周股价最终上涨的概率优势比下跌的概率优势大
周报预测分数比如说是40, 量化的概率优势就是-10, 即下一周股价最终上涨的概率优势比下跌的概率优势小

那样比如我在选股的时候我会优选选择概率优势大的股票, 但是这样比如你在周一的时候进行买入, 周五的时候进行卖出, 就能以这样的概率获胜吗? 这需要综合考虑下面几点:

概率是建立在多次实验的基础上面的, 必须通过相当多次重复的实验才能确保概率的生效, 也就是说你按照这个概率执行10次也许胜出8次, 但也有可能只有3次, 但是如果执行10000次胜出率会是60%
交易滑点和手续费, 最终的利润的吞噬, 滑点是个交易用语, 大概的意思就是比如下一周比如确实最终上涨了3个点, 但是你有可能是在周一的高点买入, 周五的低点卖出这样最终的结果依然可能是亏损, 还有手续费, 也许你最终的获利还不足以支付手续费等费用.
金融市场的特殊性, 受整个市场氛围，个股基本面、上市公司的偶然事件等多种不可预估的因素影响

关于AI大数据预测分数的概率优势将再在本文后续章节证明.

3. 量化最大的技术诉求是优势的叠加

实际上现在所有的人工智能都是属于弱人工智能，但alphago vs 柯洁和阿法狗战胜围棋冠军李世石, 是因为根据围棋规则计算机构建学习网络，使用强大运算能力通过蒙特卡洛寻找最优，俗话说3个臭皮匠顶一个诸葛亮，它运行的本质就是每走一步棋都依靠成千上万个臭皮匠（臭棋篓子）朝各种可能性走一步，然后从它们走出的结果中选取最好的那一个臭棋篓子上场，这个被选中的臭棋篓子和其它臭棋篓子没有任何区别，它只是幸运的走了最好的那一步，它的本质是多个弱人工智能效力叠加，通过游戏规则取胜，所以与其说是阿法狗大战李世石, 不如叫做十万个臭棋篓子大战李世石
相同的道理在机器必定无法在真实智力上胜过人类的前提前下, 量化最大的技术诉求是优势的叠加, 也就是上面的弱人工智能效力叠加

实现这个技术诉求的最有效直接的方式是在上面最初第一条量化最大的自身光环是高数据量的无差别分析的基础上, 最大限度提升上面第二条的单维度概率优势, 由于可以对市场中大量的股票进行多维度量化度量, 这样就可以综合多个维度的量化结果进行概率优势的叠加, 这样子的叠加的结果只是极微弱的, 并且有些量化类型的概率优势本身就是很微弱的, 但是这些特性类型的量化维度, 是可以作为叠加辅助的优良选择.

第二部分微概率优势的量化

回归本文正题, 本文主旨是通过数据和实际案例来证明AI预测涨跌幅是否存在概率优势, 首先下面做一个完全靠乱猜涨跌幅的概率模型.

1. 完全靠猜涨跌幅的模型

定假股票每天的涨跌幅区间是-10%到+10%, 以0.01个点为1个单位, 那么这个序列为:
```
[-10.  ,  -9.99,  -9.98, ...,   9.97,   9.98,   9.99]
```
这个序列就的数量一共是2000个, 如果假定每一种涨跌幅的概率是相同的那么涨停+10%的概率将是: 1/2000, 跌停的概率同样也是 1/2000.
这是一个很小的概率, 北京2018年5月份之前小汽车牌照指标的中签率大概就是这个概率, 可以体会一下多小, 你猜自己能在下一个月摇上号结果真中了, 和你猜一个股票明天涨停它就真涨停了的概率是基本相同的.

下面对将完全靠猜涨跌幅各个维度技术概率进行简单计算:

连续5天胡猜, 最后都对了概率是1/2000乘1/2000乘1/2000乘1/2000乘1/2000 约等于: 不可能,

按照这个概率来说, 继续举例使用北京小汽车牌照指标的中签率, 就是家里有5口人都参加了摇号, 连续5期, 每一期一个人摇号中签, 最后家里人都中签了..

如果以猜测的差不多范围内就也算成功, 这个概率就会提高一些, 但是由于这个模型本身就是为了简单, 且每天的涨跌幅区间范围-10%到+10%也是大大的留情, 实际的预测的时候并没有范围这个概念, 实际预测的时候也没有10%作为极限进行预测, 都是使用负无穷->正无穷, 预测模型并没有对有涨跌停板干预的市场做特殊处理

2. 阿布量化中AI预测涨跌幅

在APP发现页面中有一项叫做AI涨跌幅适应度, 其记录的是上一周报告AI预测涨跌幅走势和实际走势的适应度, 也可理解为成功预测.

由于算力设备有限, 所以暂时沪深和美股市场的周报只做1900个股票分析量化, 即只有1900个可以评测适应度, 用户可以在周末周报出来后进行查看

连续5天都预测准确, 最后都对了概率其实也依然非常小, 但是存在非常接近的情况如下:

可以看到适应度评分的规则不是说走势每天的走势越接近, 分数越高, 比如下面的走势预测下跌-29%实际下跌-25%这种由于预警的级别比较重要, 所以虽然每一天的走势并不是很类似, 但适应度分数依然很高, 虽然fb预测更接近, 但分数确不是很高.(关于预警阿布量化中有AI高光, AI高能模块)

对于大数据对涨跌幅进行预测, 最关键的不是最后的涨跌幅度能不能相同, 有几个交易日预测准确, 走势是否完美相关, 更重要的是关键特征是否一致, 特征滞后或者超前的容忍等等, 比如下面几个示例虽然最后的偏差存在, 但在适应度度量中分数依然会比较高:

对于整个系统来说, 适应度分数大于一定分数的可以理解为成功预测, 那么每一周AI预测涨跌幅的成功预测比例是多少呢

2019-05-24批次的沪深周报成功预测的数量为226个, 226/1900=0.11, 即11%成功预测概率
2019-05-31批次的沪深周报成功预测的数量为241个, 241/1900=0.12, 即12%成功预测概率
2019-06-07批次的沪深周报成由于中秋放假, 导致无法度量准确度
2019-06-14批次的沪深周报成功预测的数量为423个, 423/1900=0.22, 即22%成功预测概率
2019-06-22批次的沪深周报成功预测的数量为166个, 166/1900=0.08, 即8%成功预测概率

由于金融市场的特殊性, 特别是受整个市场氛围的变化特性, 所以有些批次的成功率偏低, 但有些批次的成功率很高, 但综合更多次的平均, 这个值的概率大概是13%上下, 这个概率优势高吗? 确实不高, 100个里面有13个能预测满意的, 因为这个预测不是猜涨跌类型的二分离散猜测, 而是连续值概率分布问题, 没有那么高的自然优势概率, 它属于微概率优势量化.

备注:

这里统计的数值使用了平台接口获取批次历史数据进行, 这里直接作为结果写上, 阿布量化报告历史数据接口会在未来做为平台数据接口进行部分开放
统计成功预测概率是指周报中对日k的预测, 日报中对小时k的预测成功概率会更低, 因为越小的时间序列无序突变特性越明显

3. 微概率优势的作用

微概率优势是不能作为主策略去进行交易使用的, 因为总体概率优势并不高, 但是可以做为辅助叠加策略进行使用, 上面说的第三条量化最大的技术诉求是优势的叠加, 举例如下:

匹配本金: 很多时候通过多层量化选股后发现最终留下来的数量还是太多和本金不匹配, 去掉预测相对涨幅比较低的.
躲避风险: 比如最后选股就剩下两支, 不好取舍, 但一个AI预测是上涨20%, 另一个AI预测是下跌20%, 那么就算为了躲避风险也应该舍掉下跌多的, 关于这一点文章之后的续篇后着重讲解AI高光时刻和AI高能预警这两个模块的概率优势和使用.

本文这里只是先简单说明微概率优势的作用, 后续章节后有更专门的使用实例.

结语

阿布量化APP推出的目的就是能让更多的人, 不需要会写代码就可以快速获得投资品的量化信息, 把主要精力放在思考、决策等更有意义的地方。所以文章中尽量避免代码的证明方式, 用人们都能理解的自然语言来阐述问题.
阿布量化日报与周报的生成需要使用自行研发的分布式系统运行, 每一天每一个市场需要十几台40核的计算机进行分布式计算, 其中AI预测相关的模块由于数据量庞大, 计算量复杂所以会消耗大量的算力, 即使如此, 因为预测本身存在的微概率优势特点, 用户可以依然会感觉自己所关心的那几个股票预测的不准.
所以请理解按照13%这个概率, 100次预测才能有13次预测的比较靠谱, 靠着这个概率绝对不能为交易做主要决策, 但是可以为你的交易做次要决策, 比如用户可以根据发现中的综合报告分析, 或者综合k线形态等初始选出股票, 假如最终选出了两支, 但是仓位只能持有一支, 那么就可以根据这个低概率优势的量化结果, 选择涨幅比较高的那一支, 这种感觉就好像那句话: 梦想还是要有的，万一实现了呢!
本文的主旨是请用户理解AI涨跌幅预测的低概率优势特点.