o 原理分析:KNN算法在1:100的比例下,任意一个空间区域(即便是欺诈样本密集的区域),由于多数类样本基数过大,很容易渗透进该区域。当K=10时,即使该区域是残次品高发区,邻居里可能只有3个欺诈样本,7个正常样本(正常样本无处不在)。多数表决机制会导致预测为“正常”。这本质上是由于多数类的先验概率过高。
o 改进方案:
A:SMOTE是数据级方案,题目限制了“算法级改进”且题干暗示了更直接的机制修正。
B:正确。既然数量不占优,就必须改变投票规则。不再是一人一票,而是让少数类的一票相当于多数类的100票(即乘以先验概率的倒数)。
C:KNN是非参数模型,不假设数据分布。
D:K=1虽然能提高召回率,但会极大增加方差(过拟合),且容易受噪声干扰,不是稳健的解决方案。