(4)数据预处理
在实际的建模过程中,我们能够得到的数据都会存在一定的问题,我们称之
为“脏数据”,例如会存在缺失值、数据量纲不统一、数据类型不一致等问题;
也可以通过原始数据衍生出新数据,进行特征工程。数据的质量一般会影响到最
后分类结果的准确性,因此,数据处理也是一个不能忽视的建模过程。
(5)分类模型构建和模型评估
以上四步从更本上来说主要是为建立分类模型这一步做准备工作,因此,挑
选出一种准确率高、稳定性好的分类模型是整个多因子选股策略的关键部分,传
统的多因子选股策略一般选择回归法,将各种因子与收益率结果进行回归分析,
拟合出一条能够分类的曲线。模型的评估主要是通过历史回测,看所建立的模型
的收益情况来判断模型的效果好坏。
隧圈⋯。_圈量~》霍峥隧雹》鏖圈
3.3多因子选股模型构建步骤图
以上多因子选股模型的构建步骤是常规传统多因子选股模型的最常用步骤,
所有研究者开发出的多因子选股模型的区别体现在两个方面,一个是选择不同的
因子或因子数量,另一个是选择更为有效的分类算法,得出更准确的结果。在因
子选择上,各研究者的多因子模型大同小异主要包含基本面五大类财务指标,技
术面指标如动量、换手率、波动率等和其他指标如预期收益增长、宏观经济变量
等。而在综合多因子得出最后的判断上,从最初的综合打分法和线性回归到运用
机器学习算法如决策树、SVM到提升算法如随机森林、GBDT,研究者们一直尝
试运用更新更有效率的模型来得出更准确的结果。
基于以上分析,本文也尝试从因子选取和算法选择两个方面来改进学术和市
万方数据
2021-11-06 10:51:15
7.58MB
金
量化投
1