数据缺失类型及处理方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。随机缺失指的是

A. 缺失数据与该变量的真实值无关，与其他变量的数值也无关。

B. 缺失数据与其他变量有关

C. 缺失数据依赖于该变量本身

D. 数据集中不含缺失值

上一题

下一题

题目解析

题目评论(0)

随机缺失指的是数据的缺失依赖于其他观测变量。比如时间梯度越长的采集越可能有缺失值的出现。这个时候，若是我们将时间变量进行控制，那么数据的缺失也就变成了完全随机的了

正确答案是 B: 缺失数据与其他变量有关。

专业分析：

缺失值可以根据其产生的机制分为以下几种类型：

1. **完全随机缺失（MCAR, Missing Completely At Random）**：
- 定义：缺失数据的发生与任何变量（包括缺失数据本身和其他变量）都无关。
- 解释：数据缺失是完全随机的，没有任何可预测的模式。
- 示例：在一个调查中，由于某些问卷在邮寄过程中丢失，导致部分数据缺失。

2. **随机缺失（MAR, Missing At Random）**：
- 定义：缺失数据的发生与缺失值本身无关，但与其他已观测到的变量有关。
- 解释：数据缺失的模式可以通过其他变量来解释。
- 示例：在一个健康调查中，如果男性比女性更可能不回答关于体重的问题，那么体重数据的缺失情况就与性别有关。

3. **完全非随机缺失（MNAR, Missing Not At Random）**：
- 定义：缺失数据的发生与该变量本身的真实值有关。
- 解释：数据缺失的模式依赖于缺失值本身，存在系统性偏差。
- 示例：在一个收入调查中，高收入者可能不愿透露自己的收入情况，导致高收入数据缺失。

综上所述，选项 B 正确地描述了随机缺失（MAR）的定义，即缺失数据与其他变量有关。