本文是深度学习揭秘系列报告第一篇。因此本文从基础的神经网络理论部分入手,介绍了神经元结构、Relu、Sigmoid 等常用激活函数、反向传播算法,以及后文中用到的 Adam 优化器与 Dropout 层。 非线性模型更能挖掘量价因子的潜力。本文以开源 Alpha158 作为量价因子集,以及常见的估值、成长、质量、分析师一致预期等因子作为基本面因子集进行基础研究,采用线性模型 Lasso 和非线性模型 MLP 分别对量价与基本面因子进行合成。结果显示,非线性 MLP 模型相较于线性 Lasso 模型在量价因子上优势较明显,MLP 模型的 5 日 RankIC 较 Lasso 模型提升 1.82pct,费后多头超额收益提升 9.42pct;20 日 RankIC 较 Lasso 提升 1.94pct,费后多头超额收益提升 6.54pct。但非线性模型的优势在基本面因子上不突出,MLP 模型长期表现与 Lasso 模型几乎持平。
我们认为可能有几个原因:
1)基本面因子之间结合的逻辑偏线性,而量价因子的非线性组合可能包含增量信息。
2)部分基本面因子在财报真空期值不变,而标签 Y 却每天有变动。
3)基本面因子数量相较于量价因子偏少。 端到端的分支网络结合量价与基本面更具优势。
前文我们用全连接神经网络分别结合了量价与基本面因子,但如何进一步将量价因子与基本面因子相结合是我们关心的另一方面。我们从基础的线性结合方式入手,尝试等权结合与 ICIR 加权结合前文神经网络拟合的量价与基本面因子,结果表明线性结合的因子较难战胜纯量价因子。5 日纯量价因子的 RankIC 为 12.39%,纯基本面因子 RankIC 为 7.32%,等权因子 RankIC 为 11.64%,ICIR 加权因子RankIC 为 12.37%。因此我们更进一步,采用分支网络端到端计算量价与基本面的子因子合成,以及量价与基本面因子的权重生成。结果显示,5 日分支网络合成因子 RankIC 为 12.9%,相较于原始量价因子提升 0.51pct,多头超额年化收益为 10.85%,提升 2.54pct,多空超额年化收益为 132.21%,提升 9.77pct。在 20 日的维度同样也优于其他合成方式。 基于长短期收益预测的混频组合。5 日因子对短期收益的预测效果更好,而20 日因子对长期收益的预测能力更佳。因此我们以 20 日因子的多头组合为底仓,与 5 日因子排名靠前的股票取交集进行高频调整。与前 25%的 5 日因子取交集,多头超额提升 6.98pct,与前 50%取交集提升 4.79pct,与前 75%取交集提升 3.26pct。且交集股票范围越小,换手越高,因此这是一个以提高换手率获取更高收益的组合思路。另外,我们发现混频组合的最大回撤会更接近于底仓 20 日组合的最大回撤,因此提高了收益的同时最大回撤并无显著增加。 基于低频量价、高频量价、基本面因子的中证 1000 指增策略。在 20 日调仓的换手下,限制 100%指数成分股内选股,个股权重最大偏离 0.5%,行业最大偏离 3%,风格最大偏离 0.01 的约束条件,中证 1000 指增组合 2015 年至2024 年 5 月 31 日年化收益为 11.59%,年化信息比为 3.56,单边年化换手率 7.61。相对中证 1000 全收益的年化超额收益为 13.17%,收益波动比为3.77,收益回撤比为 5.06。今年超额收益为 3.73%。
风险因素:结论基于历史数据,在市场环境转变时模型存在失效的风险。

因篇幅限制,仅展示部分,更多重要内容、核心观点,请下载报告。