考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

连续变量使用以下哪个统计量进行缺失值填补较合适?(多选)
A. 均值
B. 最大值
C. 中位数
D. 最小值
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

对于连续变量的缺失值填补,较为合适的统计量通常是:

A: 均值
C: 中位数

### 专业分析

- **均值填补**:
- **优点**:使用均值填补是最常见的方法,适用于数据分布较为对称的情况。均值能够利用所有非缺失值的信息。
- **缺点**:对于有显著偏斜的数据集,均值可能受到极端值的影响,导致填补后的数据失真。

- **中位数填补**:
- **优点**:中位数不受极端值的影响,适用于偏斜分布的数据集。此外,中位数能够更好地代表数据的中心趋势。
- **缺点**:不如均值利用所有数据的信息量,因为它仅依赖于排序后的中间值。

#### 其他选项分析
- **最大值和最小值填补**:
- 这两种方法通常不用于缺失值填补,因为它们会引入极端值,改变数据的分布特性。这些方法可能导致模型的偏差,尤其是在机器学习应用中。

### 结论
在选择填补方法时,应考虑数据的分布特性和对分析结果的影响。均值适合对称分布的情况,而中位数更适用于偏斜分布的数据。