KNN缺失值填补方法详解-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

KNN缺失值填补中描述正确的是

A. 利用的是特征之间的互信息进行填补的

B. 假设我们没有获得某个数据点，利用这个数据点周围若干测量值的加权均值进行填补

C. 将数据聚合成K个簇，然后利用每个簇计算该簇中的缺失样本的缺失值

D. 填补速度通常比均值填补快

上一题

下一题

题目解析

题目评论(0)

KNN填补的思路就是利用某个数据点的邻居点进行填补

正确答案是：B:假设我们没有获得某个数据点，利用这个数据点周围若干测量值的加权均值进行填补。

专业分析：

KNN（K-Nearest Neighbors，K近邻）缺失值填补方法是一种基于相似性的填补方法。其基本思想是，对于一个缺失值，通过找到与其最相似的K个邻居（即K个最近的样本），然后利用这些邻居的值来估计缺失值。具体来说，KNN缺失值填补的步骤如下：

1. **计算距离**：对于缺失值所在的样本，计算其与其他样本的距离。常用的距离度量方法包括欧氏距离、曼哈顿距离等。

2. **选择邻居**：根据计算的距离，选择K个最近的邻居。

3. **加权均值**：利用这K个邻居的值来填补缺失值。可以采用简单均值，也可以采用加权均值（权重通常与距离的倒数成正比）。

因此，选项B描述的是KNN缺失值填补的核心思想，即利用数据点周围若干测量值的加权均值进行填补。

其他选项分析：
- A: 利用特征之间的互信息进行填补的。这种方法通常用于特征选择，而不是缺失值填补。
- C: 将数据聚合成K个簇，然后利用每个簇计算该簇中的缺失样本的缺失值。这描述的是一种基于聚类的方法，不是KNN。
- D: 填补速度通常比均值填补快。这是不正确的，因为KNN需要计算距离，通常比简单的均值填补更耗时。