@rsxw 你好,目前这一版确实是直接使用了Qlib的alpha158全量因子,没有提前做人工挑选,但在模型上做了比较强的约束(比如 min_data_in_leaf、正则、子样本/子特征采样等),尽量避免“高维因子+ML黑盒拟合”的问题。CSI300上能够做出比较稳定的增强,主要靠两个点:① 大盘蓝筹的噪音比全市场小,alpha158在大市值上本身更稳;②模型约束比较强,重点是提升稳健性,而不是追求回测特别好看。
一些可以分享的经验:alpha158虽然是158因子,但在CSI300上,特征重要性会自然集中到几十个核心因子(波动、流动性、动量一类);模型训练上尽量使用更长的训练区间+独立验证集,能减少“拟合某几年风格”的风险;行业内保持分散配置,不让模型在少数行业上堆仓;关注模型在不同年份的稳定性,而不是某几年特别亮眼。总体思路是:不用刻意追求复杂,而是让模型“能解释、能跨年份、能跨风格”更重要。如果后面我调出更稳健的特征组合,也会继续更新经验。
2025-12-10