数据分析师如何处理离散变量缺失值-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

对于随机缺失和非随机缺失,直接删除记录是不合适的。而对于离散型变量可以使用以下哪个统计量进行缺失值填补？

A. 均值

B. 最大值

C. 中位数

D. 众数

上一题

下一题

题目解析

题目评论(0)

正确答案是D: 众数。

分析如下：

1. **随机缺失和非随机缺失**：
- **随机缺失**（Missing Completely at Random, MCAR）：数据缺失与任何观察到的或未观察到的变量无关。
- **非随机缺失**（Not Missing at Random, NMAR）：数据缺失与未观察到的变量有关，或者缺失本身与缺失值相关。

2. **离散型变量**：
- 离散型变量是指取值为有限个或可数个不同数值的变量，例如类别变量（性别、颜色等）。

3. **缺失值填补方法**：
- **均值**：适用于连续型变量，但不适合离散型变量，因为离散型变量的均值可能不是一个有效的类别。
- **最大值**：通常不用于缺失值填补，特别是离散型变量。
- **中位数**：适用于连续型变量，对于离散型变量，中位数可能不是一个有效的类别。
- **众数**：是离散型变量中出现频率最高的值，因此是最合适的填补方法。

综上所述，对于离散型变量，使用众数进行缺失值填补是最合适的选择，因为众数是数据集中最常见的值，能够较好地代表该变量的分布特征。