CDA III 模拟题数据科学考察KNN缺失值填补-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

KNN缺失值填补中描述正确的是

A. 利用的是特征之间的互信息进行填补的

B. 假设我们没有获得某个数据点，利用这个数据点周围若干测量值的加权均值进行填补

C. 将数据聚合成K个簇，然后利用每个簇计算该簇中的缺失样本的缺失值

D. 填补速度通常比均值填补快

上一题

下一题

题目解析

题目评论(0)

KNN填补的思路就是利用某个数据点的邻居点进行填补

在KNN（K-Nearest Neighbors）缺失值填补中，描述正确的是 B: 假设我们没有获得某个数据点，利用这个数据点周围若干测量值的加权均值进行填补。

**分析：**

A: 利用的是特征之间的互信息进行填补的
- 互信息是一种衡量两个变量之间依赖关系的统计量，但KNN方法并不利用互信息来进行缺失值填补。

B: 假设我们没有获得某个数据点，利用这个数据点周围若干测量值的加权均值进行填补
- 这是正确的描述。KNN缺失值填补方法是基于最近邻的思想，利用与缺失值样本最相似的若干个样本（即最近邻）来进行填补。具体来说，通常是计算这些最近邻样本在缺失特征上的加权均值来填补缺失值。

C: 将数据聚合成K个簇，然后利用每个簇计算该簇中的缺失样本的缺失值
- 这描述的是一种聚类方法，而不是KNN。KNN不涉及将数据聚合成簇，而是直接寻找最近的K个邻居。

D: 填补速度通常比均值填补快
- 这个描述不正确。均值填补的速度通常比KNN填补快，因为均值填补只需要计算一次均值，而KNN填补需要计算每个样本的K个最近邻，计算量更大。

因此，正确答案是 B。