考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某分析师在处理一份数据时,发现其中存在较多的缺失值。如果在不考虑计算复杂度和可解释性的前提下,最合理的填补方法应是( )。
A. 常数法
B. 均值法
C. 中位数
D. 模型法
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在不考虑计算复杂度和可解释性的前提下,最合理的填补方法是:

**D: 模型法**

### 专业分析

- **常数法**:将所有缺失值填补为一个常数(例如零)。这种方法简单,但容易引入偏差,特别是在数据分布复杂的情况下,可能导致数据失真。

- **均值法**:用特征的均值填补缺失值。虽然减少了数据的偏差,但在数据集的特征呈现非对称分布时,均值可能不是中间的典型值,从而影响模型性能。

- **中位数法**:用特征的中位数填补缺失值。比均值法更稳健,因为中位数不受极端值影响。但是,中位数法同样没有考虑不同特征之间的潜在关系。

- **模型法**:这是通过利用其他可用数据训练一个模型(如回归、KNN、随机森林等),来预测和填补缺失值。此方法能够最大限度地保留数据之间的关系,通常可以取得更好的表现,尤其是在缺失值模式较为复杂或数据重要性较高的情况下。

### 结论

在不受计算复杂度和可解释性限制的情况下,模型法可以更精准地填补缺失值,因为它能够捕捉数据中潜在的模式和关系,从而提供更准确的估计。这就是为什么在此情境下,模型法被认为是最合理的选择。