考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某医疗团队试图预测一种罕见遗传病。在使用标准 SMOTE 算法扩充正样本后,发现模型在训练集上收敛良好,但在验证集上的 False Positive(假阳性)显著增加。经过特征空间可视化,发现由于正样本中存在离群点(Outliers),SMOTE生成了许多位于正负类重叠区域的噪音样本。针对此问题,最恰当的改进措施是:
A. 增加 SMOTE 的过采样倍率,生成更多样本以覆盖特征空间。
B. 改用 Borderline-SMOTE 或 ADASYN,仅在决策边界附近生成样本。
C. 在使用 SMOTE 前,先对数据进行 Min-Max 归一化,将所有特征压缩到 [0,1] 区间以抑制离群点影响。
D. 在 SMOTE 之后,串联使用 ENN(Edited Nearest Neighbors)进行数据清洗。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

• D (正确): 题目核心痛点是“SMOTE基于离群点生成了噪音”。最标准的工业界解法是 SMOTE + ENN(或 Tomek Links)。即:先让 SMOTE 尽管生成(保证数量),然后用 ENN 观察生成样本的“邻居”。如果一个生成样本的邻居大部分是负样本,说明它落在了负样本腹地(噪音),直接剔除。这种“先生成后清洗”的策略能兼顾平衡性和准确性。 • C (错误): SMOTE 基于 KNN(欧氏距离)。虽然归一化是标准动作,但它属于仿射变换,不会改变样本之间的相对拓扑结构。如果一个离群点远离主簇,归一化后它依然远离主簇;SMOTE 依然会在这两者之间连线,这条线依然会穿过负样本区域。因此,归一化无法解决“生成噪音”的问题。 • A (错误): 生成更多样本只会制造更多噪音。 • B (错误): Borderline-SMOTE 或 ADASYN 专门在边界生成样本。如果离群点本身就处于边界或杂乱区域,该算法可能会加剧边界的复杂性,不如 D 选项的“清洗”逻辑直接有效。