-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某医疗团队试图预测一种罕见遗传病。在使用标准 SMOTE 算法扩充正样本后，发现模型在训练集上收敛良好，但在验证集上的 False Positive（假阳性）显著增加。经过特征空间可视化，发现由于正样本中存在离群点（Outliers），SMOTE生成了许多位于正负类重叠区域的噪音样本。针对此问题，最恰当的改进措施是：

A. 增加 SMOTE 的过采样倍率，生成更多样本以覆盖特征空间。

B. 改用 Borderline-SMOTE 或 ADASYN，仅在决策边界附近生成样本。

C. 在使用 SMOTE 前，先对数据进行 Min-Max 归一化，将所有特征压缩到 [0,1] 区间以抑制离群点影响。

D. 在 SMOTE 之后，串联使用 ENN（Edited Nearest Neighbors）进行数据清洗。

上一题

下一题

题目解析

题目评论(0)

• D (正确)：题目核心痛点是“SMOTE基于离群点生成了噪音”。最标准的工业界解法是 SMOTE + ENN（或 Tomek Links）。即：先让 SMOTE 尽管生成（保证数量），然后用 ENN 观察生成样本的“邻居”。如果一个生成样本的邻居大部分是负样本，说明它落在了负样本腹地（噪音），直接剔除。这种“先生成后清洗”的策略能兼顾平衡性和准确性。 • C (错误)： SMOTE 基于 KNN（欧氏距离）。虽然归一化是标准动作，但它属于仿射变换，不会改变样本之间的相对拓扑结构。如果一个离群点远离主簇，归一化后它依然远离主簇；SMOTE 依然会在这两者之间连线，这条线依然会穿过负样本区域。因此，归一化无法解决“生成噪音”的问题。 • A (错误)：生成更多样本只会制造更多噪音。 • B (错误)： Borderline-SMOTE 或 ADASYN 专门在边界生成样本。如果离群点本身就处于边界或杂乱区域，该算法可能会加剧边界的复杂性，不如 D 选项的“清洗”逻辑直接有效。