模型的特征工程研究随着机器学习模型在量化投资领域的广泛应用,我们在此前的《Alpha 掘金系列之九:基于多目标、多模型的机器学习指数增强策略》、《Alpha 掘金系列之十:机器学习全流程重构》和《ALPHA 掘金系列之十二:排序学习对 GRU 选股模型的增强》中,分别深入探讨了结合树模型和神经网络模型的机器学习量化选股架构、模型训练中的标签选择等细节问题和新的排序学习框架的有效性。然而,对模型输入端因子的特征工程尚缺乏系统的研究。本报告旨在填补这一空白,探索几个关键问题:特征选择的必要性、宏观数据与高频数据等的加入是否有益,因子与标签中性化处理的效果。
通过对这些问题的深入探讨和实证分析,我们得出了一系列重要结论:首先,基于 SHAP(Shapley Additive Explanations)的特征选择方法显著降低了模型训练成本,并在一定程度上提升了 GRU 模型的精度,同时,SHAP 提供的可视化工具能够直观地展示各个因子的作用,为进一步优化模型提供了有价值的参考。相比之下,尽管基于简单统计方法的特征选择方法也取得了一定效果,但深度学习特征选择模块 STG 的表现则不太理想。其次,关于另类因子的引入,加入宏观经济数据和 BARRA 因子收益率等反映整体市场的另类因子,虽然能够在一定程度上提升 LightGBM 模型的超额收益,但总体而言缺乏显著的正向作用。引入高频因子方面,在小微盘股上显示出较高的有效性,而在大中盘股上的应用方法仍需进一步探索。在因子与标签中性化处理方面,将中性化处理后的标签喂入 LightGBM 模型并与原模型集成,能够显著优化模型的表现,然而,将因子中性化作为模型输入的整体表现则不尽如人意。
改进后因子与策略效果最终,我们在保持原框架一致性的基础上,采用经过中性化标签合成改进的 GBDT 模型和经过 SHAP 特征选择改进的 NN模型,分别在不同成分股上进行测试,取得了显著的样本外效果。具体来说,在沪深 300 上,因子 IC 均值为 11.91%,多头年化超额收益达 22.92%,而多头超额最大回撤为 6.56%。在中证 500 上,因子 IC 均值为 11.58%,多头年化超额收益率为 12.35%。特别是在中证 1000 成分股上,因子表现尤为突出,IC 均值达到 15.42%,多头年化超额收益率为25.42%,多头超额最大回撤仅为 4.42%。综合这些结果,我们结合实际交易情况,构建了基于各宽基指数的指数增强策略。其中,沪深 300 指数增强策略的年化超额收益达到 15.83%,超额最大回撤为 3.18%;中证 500 指数增强策略的年化超额收益为 18.23%,超额最大回撤为 8.21%;而中证 1000 指数增强策略的年化超额收益则高达 32.24%,超额最大回撤为 3.88%。这些结果表明,我们的方法在不同市场条件下均取得了显著的超额收益和较低的回撤风险。
风险提示
1、 以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。
2、 策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。
内容目录
一、为什么需要特征工程?.......... 5
二、特征选择方法介绍.......... 5
2.1 基础统计方法 .......... 5
2.2 SHapley Additive exPlanations.......... 6
2.3 STochastic Gates(STG).......... 6
三、特征选择方法效果.......... 7
3.1 基础统计方法.......... 7
3.2 SHAP 方法 .......... 8
3.3 STG 方法与整体比较 .......... 10
3.4 滚动训练的必要性讨论.......... 12
四、因子与标签中性化效果.......... 12
五、加入另类因子的效果.......... 13
5.1 宏观指标等截面不变的因子.......... 13
5.2 分钟频量价数据计算的高频因子.......... 15
六、特征工程优化的 GBDT+NN 指数增强策略.......... 17
6.1 因子测试结果.......... 18
6.2 特征工程优化的 GBDT+NN 的指数增强策略.......... 20
总结.......... 25
风险提示.......... 25
图表目录
图表 1: SHAP 示意图.......... 6
图表 2: STG 模型示意图.......... 7
图表 3: 滚动训练数据划分 .......... 7
图表 4: 基础统计方法各项指标对比 .......... 8
图表 5: 基础统计方法多空组合净值 .......... 8
图表 6: 基础统计方法分位数组合年化超额收益 .......... 8
图表 7: 基于 SHAP 方法因子筛选各项指标对比 .......... 9
图表 8: 基于 SHAP 方法多空组合净值 .......... 9

因篇幅限制,仅展示部分,更多重要内容、核心观点,请下载报告。