新用户注册
备考刷题,请到
CDA认证小程序
这是数据挖掘面试中的经典陷阱。在超参数选择过程中使用的验证集分数,不能作为最终模型的泛化能力评估。因为优化过程本质上是在利用验证集的数据分布来调整参数,导致验证集不再纯粹(Information Leakage)。正确的做法是使用保留一个完全独立的Test Set,只在最终参数选定后跑一次以评估性能。