机器学习数据缺失处理方法分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某大样本数据集的缺失值占比约10%。数据分析师小A首先删除了所有有缺失值的样本，建立了回归模型。然后用某种方法进行了缺失值处理后，重新建立了回归模型，发现模型的VIF值较之前有了很大的增幅。请问小A有可能采用的哪种方法进行的缺失值处理？（）（多选）

A. 均值填补

B. K-means聚类填补

C. 回归填补

D. 忽略缺失值的极大似然估计

上一题

下一题

题目解析

题目评论(0)

此题为本试卷最难题。A只涉及变量本身，D涉及数据集整体，这两种方法都不会影响自变量之间的相关性，即不会让VIF值产生显著变化。而BC两种方法都是以变量之间的联系作为填补的基础，会在一定程度上改变变量之间的相关性，导致VIF值变化。

在处理缺失值时，不同的方法会对数据的属性和模型的结果产生不同的影响。我们来分析每种选项对VIF（方差膨胀因子）的可能影响：

1. **均值填补（A）**：
- **分析**：均值填补会在缺失值位置插入变量的均值。这种方法简单易行，但可能导致数据的方差减少，数据的原始相关性被削弱或扭曲。由于VIF用于检测多重共线性，均值填补通常不会显著增加VIF值，因为它不会引入新的相关性。

2. **K-means聚类填补（B）**：
- **分析**：K-means聚类填补通过利用数据的聚类结构来填补缺失值。这种方法更加复杂，可能在某些情况下引入额外的相关性或结构，从而增大VIF值，尤其是如果聚类中心本身与其他变量有很强的相关性时。

3. **回归填补（C）**：
- **分析**：回归填补通过建立回归模型预测缺失值，利用其他特征的线性关系进行填补。因为填补过程直接利用已有特征间的关系，可能导致多重共线性增加，从而显著提高VIF值。

4. **忽略缺失值的极大似然估计（D）**：
- **分析**：这种方法在估计参数时处理缺失值，但它并不会改变数据集本身，也不应该显著影响多重共线性。因此，通常不会导致VIF值的显著变化。

综上所述，**回归填补（C）**和**K-means聚类填补（B）**有可能导致VIF值的显著增加。因而，正确的答案是 **B 和 C**。