这是机器学习面试中最基础但也最常犯的错误之一。
• B 正确:数据泄露(Data Leakage)。标准化(Standardization)利用了数据的全局统计量(均值和方差)。如果在切分前对全量数据做 fit,那么 X_scaled 中的每一个样本都包含了所有样本(包括未来要作为测试集的样本)的信息。这会导致评估指标虚高,无法真实反映模型在未知数据上的表现。
• A/D 错误:这种泄露严重影响评估的真实性,不仅仅是代码风格问题。
• C 错误:StandardScaler 不强制要求输入数据是正态分布,它只是做数学变换。