考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

对于随机缺失和非随机缺失,直接删除记录是不合适的。而对于离散型变量可以使用以下哪个统计量进行缺失值填补?
A. 均值
B. 最大值
C. 中位数
D. 众数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是D: 众数。

分析如下:

1. **随机缺失和非随机缺失**:
- **随机缺失**(Missing Completely at Random, MCAR):数据缺失与任何观察到的或未观察到的变量无关。
- **非随机缺失**(Not Missing at Random, NMAR):数据缺失与未观察到的变量有关,或者缺失本身与缺失值相关。

2. **离散型变量**:
- 离散型变量是指取值为有限个或可数个不同数值的变量,例如类别变量(性别、颜色等)。

3. **缺失值填补方法**:
- **均值**:适用于连续型变量,但不适合离散型变量,因为离散型变量的均值可能不是一个有效的类别。
- **最大值**:通常不用于缺失值填补,特别是离散型变量。
- **中位数**:适用于连续型变量,对于离散型变量,中位数可能不是一个有效的类别。
- **众数**:是离散型变量中出现频率最高的值,因此是最合适的填补方法。

综上所述,对于离散型变量,使用众数进行缺失值填补是最合适的选择,因为众数是数据集中最常见的值,能够较好地代表该变量的分布特征。