中位数不受具体数据分布的影响。
在进行缺失值填补时,如果数据呈现明显的偏态分布,那么采用中位数填补是较为合适的方法。原因如下:
A: 将存在缺失值的样本删除 - 这种方法会导致数据量的减少,尤其是当缺失值较多时,可能会丢失大量信息,影响模型的性能。
B: 将存在缺失值的变量删除 - 这会导致丢失整个变量的信息,可能会影响模型的表现,尤其是当该变量对模型有重要贡献时。
C: 中位数填补 - 中位数不受极端值的影响,能够更好地反映数据的中心趋势,特别是在数据呈偏态分布时。使用中位数填补可以有效减少偏差。
D: 均值填补 - 在偏态分布的数据中,均值会受到极端值的影响,可能无法准确反映数据的中心趋势,从而导致填补后的数据偏差较大。
因此,正确答案是C: 中位数填补。