来源：中信建投大数据研究之五：大数据、机器学习、深度学习在投资领域应用的方法论概述（2017-10-18）

大数据与量化投资？

大：体积大，速度快，种类多（结构化：sql/csv；半结构：json/html；非结构：博客视频）

个体产生的数据

情感分析比较常用

iSentium 基于twitter的情感搜索引擎，提供DDI指标 daily directional indicator

J.P.Morgan 基于 DDI 指数构建了 JPUSISEN指数，来进行标准普尔 500 指数盘中多头或空头持仓。

商业产生的数据

公共机构提供的数据（如政府）、商业交易数据（包括电子商务、信用卡消费、交易数据等）和其他私人机构的数据（如特定行业的供应链数据）

有传感器产生的数据

智能手机跟踪估计实体店的客流量

投资领域常用的机器学习方法

量化中的常用方法

监督学习：回归/分类

具体而言，回归方法包括的模型有：

•惩罚回归：Lasso、岭回归（Ridge）、弹性网络（Elastic Net）。

虽然简单回归模型可以被看作机器学习的一种方法，但是线性回归具有天然的缺陷。线性回归在处理离群值、大量变量、相互之间有相关关系的变量以及展现出非线性行为的变量时会出现问题。因此，在利用大数据时，由于模型中包括了大量的变量，并且不确定这些变量之间是否有相关关系，线性回归模型可能会提供非理性的交易策略。所以，为了对普通线性模型的问题进行修正，在存在大量潜在相关变量的情况下构建出产生更加稳健的输出结果的模型，需要采用惩罚回归模型。

应用：Lasso 方法预测跨资产动量模型（cross-asset momentum mo）中 4 种资产一天的回报：标准普尔 500指数、7-10 年的国债指数、美元指数和黄金。模型的输入变量选取以上四种资产过去一个月、三个月、六个月、还有十二个月的收益，在进行回归之前所有的输入变量都将会被标准化。模型使用的数据集是滚动的 500 个交易日的数据，通过移动窗口的方法进行预测，模型三个月更新一次。如果一种资产第二天的收益为正则做多，为负则做空。如果对每一种资产都分别进行模型预测，可以发现，lasso 预测的年化收益和夏普指数都更高

•非参数统计回归：局部加权回归（Loess）、k 最邻近规则（K-Nearest Neighbor）。

非参数回归没有预定模型的形式

KNN算法描述：

1、计算已知类别数据集合汇总的点与当前点的距离

2、按照距离递增次序排序

3、选取与当前点距离最近的K个点

4、确定距离最近的前K个点所在类别的出现频率

5、返回距离最近的前K个点中频率最高的类别作为当前点的预测分类

KNN算法的不足点：

1、当样本不平衡时，比如一个类的样本容量很大，其他类的样本容量很小，输入一个样本的时候，K个临近值中大多数都是大样本容量的那个类，这时可能就会导致分类错误。改进方法是对K临近点进行加权，也就是距离近的点的权值大，距离远的点权值小。

2、计算量较大，每个待分类的样本都要计算它到全部点的距离，根据距离排序才能求得K个临近点，改进方法是：先对已知样本点进行剪辑，事先去除对分类作用不大的样本。

适用性：

适用于样本容量比较大的类域的自动分类，而样本容量较小的类域则容易误分

•卡尔曼滤波。

www.zhihu.com/question/23971601

卡尔曼滤波是在线性回归模型的基础上进行的拓展，使β系数能够随着时间变化，常用在统计交易以及波动性预测中。在金融中卡尔曼滤波可以用来推测趋势，为金融信号降噪、推测无法观测到的经济活动以及描绘资产和市场间的动态关系。

•极端梯度上升。

《机器学习实战》第五章梯度上升算法的直观理解

分类

分类方法包括的模型有：

•逻辑回归。

•支持向量机。

•决策树和随机森林。

•隐马尔可夫模型（见机器学习）

非监督学习

1.聚类

kmeans

用股票此前的成功和公司增长的潜力等来判定股票之间的相似性。研究者选择的相似性判断标准为两个财务指标的加权平均：收入/资产（revenues to assets）和净利润/资产（net income to assets）该加权平均值之间的区别，股票被分为许多簇，从每一簇中挑选出夏普比率最高的股票即可组成一个投资组合。

2. 因子分析

主成分分析PCA