考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

团队使用时间序列交叉验证(TimeSeriesSplit)训练LightGBM模型,并设置early_stopping_rounds=50,以验证集的对数损失(logloss)不再下降作为停止依据。模型最终迭代了约200轮。上线后,模型在接下来两个月的表现持续缓慢退化(AUC每月下降约0.01)。可能导致此泛化能力不足的原因是:
A. 时间序列交叉验证的验证集与线上数据的时间间隔仍然太近,导致early_stopping选出的模型虽然对近期过去拟合好,但对未来泛化能力一般。
B. early_stopping_rounds设置过小,导致模型在验证集loss未充分收敛时就停止了,未能学到足够的模式。
C. 使用了过于严格的剪枝参数(如min_gain_to_split过高),配合早停法,共同导致了模型欠拟合。
D. 验证集上的logloss在停止点附近可能波动很小,但此时模型在训练集上的loss仍在快速下降,说明模型正在对训练集特定噪声过拟合,早停未能有效阻止。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

早停法是防止过拟合的关键技术,但其有效性依赖于验证集的代表性。A正确:时间序列问题中,若验证集与训练集时间相隔太近,可能共享相同的短期模式或噪声,导致选出的模型对未来的“新规律”适应性差。B错误:早停轮数过小可能导致欠拟合,但题干描述“上线后缓慢退化”更可能是过拟合/时间概念漂移,而非欠拟合。C错误:严格的剪枝参数通常导致欠拟合,与“缓慢退化”现象不符。D正确:这是早停法的一个经典陷阱。如果验证集loss进入平台期而训练集loss持续下降,意味着模型正在记忆训练集特有的噪声。此时早停虽然停止,但可能已经“记忆”了一部分噪声,验证集因与训练集同分布而未反映出来,但未来数据分布变化时,这些记忆的噪声规则会损害泛化能力。