考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

When filling missing values, if the data has an obvious skewed distribution, which method can be considered? ()
A. Delete samples with missing values
B. Delete variables with missing values
C. Fill with median
D. Fill with mean
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

Median is unaffected by the specific data distribution.

正确答案是:C: 填充中位数。

专业分析如下:

在处理缺失值时,如果数据具有明显的偏斜分布(skewed distribution),使用中位数填充是一个较为合适的方法。原因如下:

1. **偏斜分布的特性**:偏斜分布意味着数据在某一侧有较长的尾巴,这会导致均值受到极端值的影响而偏离数据的中心位置。而中位数作为一种位置统计量,能够更好地代表数据的中心位置,因为它不受极端值的影响。

2. **中位数的稳健性**:中位数是数据排序后的中间值,对于偏斜分布的数据来说,中位数能够提供一个更稳健的中心度量,避免了均值可能被极端值拉动的问题。

3. **填充策略的影响**:删除样本或变量虽然能解决缺失值问题,但可能会导致信息丢失,尤其是在数据量较小时,删除操作可能会带来较大的信息损失。因此,填充缺失值是一种更为常用且有效的方法。

因此,在面对偏斜分布的数据时,使用中位数填充缺失值是一种合理且有效的方法。