-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

团队使用时间序列交叉验证（TimeSeriesSplit）训练LightGBM模型，并设置early_stopping_rounds=50，以验证集的对数损失（logloss）不再下降作为停止依据。模型最终迭代了约200轮。上线后，模型在接下来两个月的表现持续缓慢退化（AUC每月下降约0.01）。可能导致此泛化能力不足的原因是：

A. 时间序列交叉验证的验证集与线上数据的时间间隔仍然太近，导致early_stopping选出的模型虽然对近期过去拟合好，但对未来泛化能力一般。

B. early_stopping_rounds设置过小，导致模型在验证集loss未充分收敛时就停止了，未能学到足够的模式。

C. 使用了过于严格的剪枝参数（如min_gain_to_split过高），配合早停法，共同导致了模型欠拟合。

D. 验证集上的logloss在停止点附近可能波动很小，但此时模型在训练集上的loss仍在快速下降，说明模型正在对训练集特定噪声过拟合，早停未能有效阻止。

上一题

下一题

题目解析

题目评论(0)

早停法是防止过拟合的关键技术，但其有效性依赖于验证集的代表性。A正确：时间序列问题中，若验证集与训练集时间相隔太近，可能共享相同的短期模式或噪声，导致选出的模型对未来的“新规律”适应性差。B错误：早停轮数过小可能导致欠拟合，但题干描述“上线后缓慢退化”更可能是过拟合/时间概念漂移，而非欠拟合。C错误：严格的剪枝参数通常导致欠拟合，与“缓慢退化”现象不符。D正确：这是早停法的一个经典陷阱。如果验证集loss进入平台期而训练集loss持续下降，意味着模型正在记忆训练集特有的噪声。此时早停虽然停止，但可能已经“记忆”了一部分噪声，验证集因与训练集同分布而未反映出来，但未来数据分布变化时，这些记忆的噪声规则会损害泛化能力。