对于连续变量的缺失值填补,较为合适的统计量通常是:
A: 均值
C: 中位数
### 专业分析
- **均值填补**:
- **优点**:使用均值填补是最常见的方法,适用于数据分布较为对称的情况。均值能够利用所有非缺失值的信息。
- **缺点**:对于有显著偏斜的数据集,均值可能受到极端值的影响,导致填补后的数据失真。
- **中位数填补**:
- **优点**:中位数不受极端值的影响,适用于偏斜分布的数据集。此外,中位数能够更好地代表数据的中心趋势。
- **缺点**:不如均值利用所有数据的信息量,因为它仅依赖于排序后的中间值。
#### 其他选项分析
- **最大值和最小值填补**:
- 这两种方法通常不用于缺失值填补,因为它们会引入极端值,改变数据的分布特性。这些方法可能导致模型的偏差,尤其是在机器学习应用中。
### 结论
在选择填补方法时,应考虑数据的分布特性和对分析结果的影响。均值适合对称分布的情况,而中位数更适用于偏斜分布的数据。