考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

KNN缺失值填补中描述正确的是
A. 利用的是特征之间的互信息进行填补的
B. 假设我们没有获得某个数据点,利用这个数据点周围若干测量值的加权均值进行填补
C. 将数据聚合成K个簇,然后利用每个簇计算该簇中的缺失样本的缺失值
D. 填补速度通常比均值填补快
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

KNN填补的思路就是利用某个数据点的邻居点进行填补

正确答案是:B:假设我们没有获得某个数据点,利用这个数据点周围若干测量值的加权均值进行填补。

专业分析:

KNN(K-Nearest Neighbors,K近邻)缺失值填补方法是一种基于相似性的填补方法。其基本思想是,对于一个缺失值,通过找到与其最相似的K个邻居(即K个最近的样本),然后利用这些邻居的值来估计缺失值。具体来说,KNN缺失值填补的步骤如下:

1. **计算距离**:对于缺失值所在的样本,计算其与其他样本的距离。常用的距离度量方法包括欧氏距离、曼哈顿距离等。

2. **选择邻居**:根据计算的距离,选择K个最近的邻居。

3. **加权均值**:利用这K个邻居的值来填补缺失值。可以采用简单均值,也可以采用加权均值(权重通常与距离的倒数成正比)。

因此,选项B描述的是KNN缺失值填补的核心思想,即利用数据点周围若干测量值的加权均值进行填补。

其他选项分析:
- A: 利用特征之间的互信息进行填补的。这种方法通常用于特征选择,而不是缺失值填补。
- C: 将数据聚合成K个簇,然后利用每个簇计算该簇中的缺失样本的缺失值。这描述的是一种基于聚类的方法,不是KNN。
- D: 填补速度通常比均值填补快。这是不正确的,因为KNN需要计算距离,通常比简单的均值填补更耗时。