Median is unaffected by the specific data distribution.
正确答案是:C: 填充中位数。
专业分析如下:
在处理缺失值时,如果数据具有明显的偏斜分布(skewed distribution),使用中位数填充是一个较为合适的方法。原因如下:
1. **偏斜分布的特性**:偏斜分布意味着数据在某一侧有较长的尾巴,这会导致均值受到极端值的影响而偏离数据的中心位置。而中位数作为一种位置统计量,能够更好地代表数据的中心位置,因为它不受极端值的影响。
2. **中位数的稳健性**:中位数是数据排序后的中间值,对于偏斜分布的数据来说,中位数能够提供一个更稳健的中心度量,避免了均值可能被极端值拉动的问题。
3. **填充策略的影响**:删除样本或变量虽然能解决缺失值问题,但可能会导致信息丢失,尤其是在数据量较小时,删除操作可能会带来较大的信息损失。因此,填充缺失值是一种更为常用且有效的方法。
因此,在面对偏斜分布的数据时,使用中位数填充缺失值是一种合理且有效的方法。