考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在进行缺失值填补时,若数据呈明显的偏态分布,则可考虑采用下列哪种方法?
A. 将存在缺失值的样本删除
B. 将存在缺失值的变量删除
C. 中位数填补
D. 均值填补
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

中位数不受具体数据分布的影响

在处理缺失值时,选择适合的方法取决于数据的分布特性和分析目标。对于偏态分布的数据,适合的缺失值填补方法会有所不同。让我们分析选项:

A: **将存在缺失值的样本删除**
- 这种方法简单直接,但可能会导致数据量的减少,尤其是在缺失值较多时,可能会丢失大量信息,不适合偏态分布情况下保持数据的完整性。

B: **将存在缺失值的变量删除**
- 这种方法适用于变量的重要性较低且不能有效填补缺失值的情况,但会丢失该变量的全部信息,也不具体针对偏态分布。

C: **中位数填补**
- 中位数填补是偏态分布情况下的良好选择,因为中位数受极端值影响较小,相对于均值填补,更能代表数据的中心趋势。

D: **均值填补**
- 对于偏态分布,均值容易受到极端值的影响,不如中位数适合。因此,均值填补不推荐用于偏态分布的数据。

因此,针对明显偏态分布的数据,中位数填补(C)通常是更为合适的方法,因为它能够有效减少极端值的影响,更准确地反映数据的中间趋势。