-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在一个残次品检测项目中，正样本（残次品）与负样本（正常）的比例为1:100。使用标准的KNN算法（K=10，多数表决）进行预测时，发现模型对正样本的召回率（Recall）极低。从KNN的算法原理分析，导致这一现象的最直接原因是什么？在不改变K值和距离度量的前提下，最有效的算法级改进方案是：

A. 原因：距离计算对少数类不敏感；方案：对少数类样本进行SMOTE插值。

B. 原因：在局部邻域内，大概率被多数类样本包围；方案：采用基于类别的加权投票，通过 N{total}/N{class} 修正投票阈值。

C. 原因：KNN假设数据服从高斯分布，而不平衡数据破坏了假设；方案：进行Box-Cox变换，将数据转为高斯分布。

D. 原因：K值设置过大，导致平滑过度；方案：将K值设为1。

上一题

下一题

题目解析

题目评论(0)

o 原理分析：KNN算法在1:100的比例下，任意一个空间区域（即便是欺诈样本密集的区域），由于多数类样本基数过大，很容易渗透进该区域。当K=10时，即使该区域是残次品高发区，邻居里可能只有3个欺诈样本，7个正常样本（正常样本无处不在）。多数表决机制会导致预测为“正常”。这本质上是由于多数类的先验概率过高。 o 改进方案：  A：SMOTE是数据级方案，题目限制了“算法级改进”且题干暗示了更直接的机制修正。  B：正确。既然数量不占优，就必须改变投票规则。不再是一人一票，而是让少数类的一票相当于多数类的100票（即乘以先验概率的倒数）。  C：KNN是非参数模型，不假设数据分布。  D：K=1虽然能提高召回率，但会极大增加方差（过拟合），且容易受噪声干扰，不是稳健的解决方案。