考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理
A. 直接使用该变量,不填补缺失值
B. 根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C. 使用多重查补的方法进行缺失值填补
D. 使用中位数进行缺失值填补
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在面对一个连续变量缺失值占比高达85%时,我们需要慎重考虑如何处理这些缺失值。选择合适的处理方法是确保数据分析和模型准确性的关键。以下是对四种选项的专业分析:

| 选项 | 方法描述 | 分析及优缺点 |
|------|----------|-------------|
| A: 直接使用该变量,不填补缺失值 | 不对缺失值进行任何处理,直接在分析中使用原始数据。 | 不推荐。高比例的缺失会导致分析结果偏差,模型参数不稳定和准确性降低。 |
| B: 根据是否缺失,生成指示变量,仅使用指示变量作为解释变量 | 创造一个新的二元变量,标记原变量是否缺失。 | 合理选择之一。特别适合在探索性分析阶段,用于评估缺失模式是否对结果有影响。 但是会丢失原始变量信息。|
| C: 使用多重插补的方法进行缺失值填补 | 使用统计方法预测并填补缺失值,生成多份完整数据集。 | 理想选择。可以保持数据集完整性,并考虑缺失的不确定性。适用于需要保留原始变量信息的情况。 |
| D: 使用中位数进行缺失值填补 | 用该变量的中位数填补缺失值。 | 常用方法,但对于高比例缺失,风险在于可能低估数据的变异性,并引入偏差。 |

**正确答案:B或C**

- **B: 生成指示变量**,可以简单快速地评估缺失数据的影响,但对于需要完全数据集进行分析的情况,其信息提供会有限。

- **C: 使用多重插补** 是更全面的方法,因为它不仅填补缺失值,还考虑了填补过程中的不确定性,是应对高比例缺失值的先进统计技术。

在实践中,具体选择还应结合数据的性质、分析目标以及计算和解释成本等因素。