考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在一个残次品检测项目中,正样本(残次品)与负样本(正常)的比例为1:100。使用标准的KNN算法(K=10,多数表决)进行预测时,发现模型对正样本的召回率(Recall)极低。从KNN的算法原理分析,导致这一现象的最直接原因是什么?在不改变K值和距离度量的前提下,最有效的算法级改进方案是:
A. 原因:距离计算对少数类不敏感;方案:对少数类样本进行SMOTE插值。
B. 原因:在局部邻域内,大概率被多数类样本包围;方案:采用基于类别的加权投票,通过 N{total}/N{class} 修正投票阈值。
C. 原因:KNN假设数据服从高斯分布,而不平衡数据破坏了假设;方案:进行Box-Cox变换,将数据转为高斯分布。
D. 原因:K值设置过大,导致平滑过度;方案:将K值设为1。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

o 原理分析:KNN算法在1:100的比例下,任意一个空间区域(即便是欺诈样本密集的区域),由于多数类样本基数过大,很容易渗透进该区域。当K=10时,即使该区域是残次品高发区,邻居里可能只有3个欺诈样本,7个正常样本(正常样本无处不在)。多数表决机制会导致预测为“正常”。这本质上是由于多数类的先验概率过高。 o 改进方案:  A:SMOTE是数据级方案,题目限制了“算法级改进”且题干暗示了更直接的机制修正。  B:正确。既然数量不占优,就必须改变投票规则。不再是一人一票,而是让少数类的一票相当于多数类的100票(即乘以先验概率的倒数)。  C:KNN是非参数模型,不假设数据分布。  D:K=1虽然能提高召回率,但会极大增加方差(过拟合),且容易受噪声干扰,不是稳健的解决方案。