2015-2024 年,信用债违约大致经历了初步显现、集中爆发和缓和趋稳的三个阶段。2015-2017 年,逐步出现违约事件,但数量较少。2018 年进入爆发期,最高峰 2019 年违约主体数量达到 212 家,违约金额 1226.48亿元。2022 年后形势转好,违约主体数和金额均大幅下降,但在监管趋严的背景下,今年以来违约金额小幅同比提升,截至 2024/08/15,共 20家发行主体违约,涉及债券数量 47 只,违约金额 374.44 亿元。
传统的债券违约模型包括被广泛应用的 Altman Z-score,通过计算财务比率加权得到风险评分,以及基于期权定价理论设计的 Merton 模型,将企业违约定义为企业资产价值小于债务账面价值,使用 Black-Scholes 公式对企业股票和负债进行估值,并推算违约概率。近年来,由于机器学习对变量形式限制较少且具有筛选能力,兼顾样本内拟合优度和样本外预测能力,适用于二分类的监督学习算法被逐渐应用于债券市场。
基于 Logistic 回归和随机森林算法,以上市公司信用债违约和信用评级下调事件作为样本,选取能够直观反映企业资本结构及运营情况的各项财务指标、交易性退市规定相关的股票量价信息(累计成交量、平均收盘价、累计收益等)以及债券性质相关的指标(债券余额、票面利率、剩余期限、最新主体评级)作为特征,以每年三个业绩期为周期,采用欠采样技术平衡训练集,通过交叉验证确定最优参数,搭建和训练信用风险识别模型。
综合评估,随机森林模型表现更优。Logistic 回归拥有更高的 AUC,但召回率仅有0.55,随机森林虽然AUC稍低,但召回率达到0.86,即Logistic回归区分样本能力相对较强,但存在较多漏检(FN)的情况,鉴于信用风险识别模型的目的为进行风险预警,秉持着“宁可信其有不可信其无”的原则,召回率更高的随机森林模型是优选。
利用信用模型识别出具有信用事件风险的信用债/主体,及时进行排雷,可一定程度上增强组合表现,规避信用暴雷的影响。以可转债为例,在2022 半年报后的每个业绩期,使用随机森林信用风险识别模型对下一期前可能产生信用事件的转债进行排除处理,回测结果显示今年以来低波因子和估值因子多头表现显著改善,超额相对提升,收益波动降低,最大回撤收窄,全区间表现也得到优化。
风险提示:以上结果基于数学模型与历史数据,存在模型失效的可能性。
目 录
1. 信用风险事件 .......... 4
1.1. 违约事件统计 .......... 4
1.2. 信用评级下调事件统计 .......... 6
2. 分类模型概述 .......... 8
2.1. 逻辑回归(Logistic Regression) .......... 8
2.2. 随机森林(Random Forest) .......... 9
2.3. 极端梯度提升(XGBoost) .......... 10
3. 信用风险识别模型 .......... 10
3.1. 模型搭建准备 .......... 10
3.1.1. 特征的选取 .......... 10
3.1.2. 不平衡样本数据的处理.......... 11
3.1.3. 模型评估标准 .......... 12
3.1.4. 参数的调整 .......... 14
3.2. Logistic 回归 .......... 15
3.3. 随机森林 .......... 19
3.4. 模型效果对比 .......... 23
4. 可转债因子信用增强 .......... 23
4.1. 低波因子 .......... 24
4.2. 估值因子 .......... 26
5. 总结 .......... 27
6. 参考文献 .......... 27
7. 风险提示 .......... 28

因篇幅限制,仅展示部分,更多重要内容、核心观点,请下载报告。