-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

一位初级工程师使用GridSearchCV对模型进行了调优。他使用了5折交叉验证（5-fold CV），在网格搜索结束后，他直接汇报了best_score_（即搜索过程中找到的最佳参数对应的验证集平均分）作为模型未来上线后的预期性能指标。作为Team Leader，你需要指出他的错误。这个指标通常是有偏的，原因是：

A. 5折交叉验证的折数太少，方差太大

B. 这个分数是在该数据集上多次试错得到的，模型已经间接“看到”了验证集数据

C. 网格搜索没有覆盖所有的参数空间，因此这个分数低于理论最优值

D. best_score_计算的是训练集的得分，而不是验证集的得分

上一题

下一题

题目解析

题目评论(0)

这是数据挖掘面试中的经典陷阱。在超参数选择过程中使用的验证集分数，不能作为最终模型的泛化能力评估。因为优化过程本质上是在利用验证集的数据分布来调整参数，导致验证集不再纯粹（Information Leakage）。正确的做法是使用保留一个完全独立的Test Set，只在最终参数选定后跑一次以评估性能。