考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某大样本数据集的缺失值占比约10%。数据分析师小A首先删除了所有有缺失值的样本,建立了回归模型。然后用某种方法进行了缺失值处理后,重新建立了回归模型,发现模型的VIF值较之前有了很大的增幅。请问小A有可能采用的哪种方法进行的缺失值处理?( )(多选)
A. 均值填补
B. K-means聚类填补
C. 回归填补
D. 忽略缺失值的极大似然估计
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

此题为本试卷最难题。A只涉及变量本身,D涉及数据集整体,这两种方法都不会影响自变量之间的相关性,即不会让VIF值产生显著变化。而BC两种方法都是以变量之间的联系作为填补的基础,会在一定程度上改变变量之间的相关性,导致VIF值变化。

在处理缺失值时,不同的方法会对数据的属性和模型的结果产生不同的影响。我们来分析每种选项对VIF(方差膨胀因子)的可能影响:

1. **均值填补(A)**:
- **分析**:均值填补会在缺失值位置插入变量的均值。这种方法简单易行,但可能导致数据的方差减少,数据的原始相关性被削弱或扭曲。由于VIF用于检测多重共线性,均值填补通常不会显著增加VIF值,因为它不会引入新的相关性。

2. **K-means聚类填补(B)**:
- **分析**:K-means聚类填补通过利用数据的聚类结构来填补缺失值。这种方法更加复杂,可能在某些情况下引入额外的相关性或结构,从而增大VIF值,尤其是如果聚类中心本身与其他变量有很强的相关性时。

3. **回归填补(C)**:
- **分析**:回归填补通过建立回归模型预测缺失值,利用其他特征的线性关系进行填补。因为填补过程直接利用已有特征间的关系,可能导致多重共线性增加,从而显著提高VIF值。

4. **忽略缺失值的极大似然估计(D)**:
- **分析**:这种方法在估计参数时处理缺失值,但它并不会改变数据集本身,也不应该显著影响多重共线性。因此,通常不会导致VIF值的显著变化。

综上所述,**回归填补(C)**和**K-means聚类填补(B)**有可能导致VIF值的显著增加。因而,正确的答案是 **B 和 C**。