CDA认证考试统计学数据分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

连续变量使用以下哪个统计量进行缺失值填补较合适？（多选）

A. 均值

B. 最大值

C. 中位数

D. 最小值

上一题

下一题

题目解析

题目评论(0)

对于连续变量的缺失值填补，较为合适的统计量通常是：

A: 均值
C: 中位数

### 专业分析

- **均值填补**：
- **优点**：使用均值填补是最常见的方法，适用于数据分布较为对称的情况。均值能够利用所有非缺失值的信息。
- **缺点**：对于有显著偏斜的数据集，均值可能受到极端值的影响，导致填补后的数据失真。

- **中位数填补**：
- **优点**：中位数不受极端值的影响，适用于偏斜分布的数据集。此外，中位数能够更好地代表数据的中心趋势。
- **缺点**：不如均值利用所有数据的信息量，因为它仅依赖于排序后的中间值。

#### 其他选项分析
- **最大值和最小值填补**：
- 这两种方法通常不用于缺失值填补，因为它们会引入极端值，改变数据的分布特性。这些方法可能导致模型的偏差，尤其是在机器学习应用中。

### 结论
在选择填补方法时，应考虑数据的分布特性和对分析结果的影响。均值适合对称分布的情况，而中位数更适用于偏斜分布的数据。