• D (正确): 题目核心痛点是“SMOTE基于离群点生成了噪音”。最标准的工业界解法是 SMOTE + ENN(或 Tomek Links)。即:先让 SMOTE 尽管生成(保证数量),然后用 ENN 观察生成样本的“邻居”。如果一个生成样本的邻居大部分是负样本,说明它落在了负样本腹地(噪音),直接剔除。这种“先生成后清洗”的策略能兼顾平衡性和准确性。
• C (错误): SMOTE 基于 KNN(欧氏距离)。虽然归一化是标准动作,但它属于仿射变换,不会改变样本之间的相对拓扑结构。如果一个离群点远离主簇,归一化后它依然远离主簇;SMOTE 依然会在这两者之间连线,这条线依然会穿过负样本区域。因此,归一化无法解决“生成噪音”的问题。
• A (错误): 生成更多样本只会制造更多噪音。
• B (错误): Borderline-SMOTE 或 ADASYN 专门在边界生成样本。如果离群点本身就处于边界或杂乱区域,该算法可能会加剧边界的复杂性,不如 D 选项的“清洗”逻辑直接有效。