考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

 缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。随机缺失指的是
A. 缺失数据与该变量的真实值无关,与其他变量的数值也无关。
B. 缺失数据与其他变量有关
C. 缺失数据依赖于该变量本身
D. 数据集中不含缺失值
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

随机缺失指的是数据的缺失依赖于其他观测变量。比如时间梯度越长的采集越可能有缺失值的出现。这个时候,若是我们将时间变量进行控制,那么数据的缺失也就变成了完全随机的了

正确答案是 B: 缺失数据与其他变量有关。

专业分析:

缺失值可以根据其产生的机制分为以下几种类型:

1. **完全随机缺失(MCAR, Missing Completely At Random)**:
- 定义:缺失数据的发生与任何变量(包括缺失数据本身和其他变量)都无关。
- 解释:数据缺失是完全随机的,没有任何可预测的模式。
- 示例:在一个调查中,由于某些问卷在邮寄过程中丢失,导致部分数据缺失。

2. **随机缺失(MAR, Missing At Random)**:
- 定义:缺失数据的发生与缺失值本身无关,但与其他已观测到的变量有关。
- 解释:数据缺失的模式可以通过其他变量来解释。
- 示例:在一个健康调查中,如果男性比女性更可能不回答关于体重的问题,那么体重数据的缺失情况就与性别有关。

3. **完全非随机缺失(MNAR, Missing Not At Random)**:
- 定义:缺失数据的发生与该变量本身的真实值有关。
- 解释:数据缺失的模式依赖于缺失值本身,存在系统性偏差。
- 示例:在一个收入调查中,高收入者可能不愿透露自己的收入情况,导致高收入数据缺失。

综上所述,选项 B 正确地描述了随机缺失(MAR)的定义,即缺失数据与其他变量有关。