考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

类别型变量可使用以下哪个统计量进行缺失值的填补?(多选)
A. 均值
B. 最大值
C. 未知(Unknown)
D. 众数(Mode)
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在处理类别型变量的缺失值时,可以使用以下统计量进行填补:

- **A: 均值**:均值通常用于数值型变量,而不是类别型变量。因此,均值并不适用于类别型变量的填补。

- **B: 最大值**:最大值也不适用于类别型变量的填补。最大值通常用于数值型数据以获取数据范围,而在类别型数据中并没有直接意义。

- **C: 未知(Unknown)**:使用“未知”或“其他”类别可以是一个合适的策略,特别是在不知道缺失数据模式的情况下。这种方法不会扭曲已有的类别分布,但会增加一个新的类别。

- **D: 众数(Mode)**:众数是最常见的方法之一,因为它使用了最频繁出现的类别来填补缺失值,从而保持了数据分布的合理性。

因此,正确答案是 **C: 未知(Unknown) 和 D: 众数(Mode)**。

### 专业分析
在数据处理中,选择合适的缺失值填补方法取决于数据的性质和分析目标。对于类别型变量:

- **众数填补**:如果数据有较强的模式(某些类别特别常见),使用众数填补可以有效保持其分布特性。此方法简单直接,尤其适用在缺失值不多的情况下。

- **未知填补**:在某些情况下,尤其是当缺失值较多,或你不希望对原始分布做任何假设时,使用“Unknown”或“其他”作为新类别可以避免引入潜在的偏差。

选择填补策略时需考虑数据集的大小、缺失数据的比例以及数据分析的最终目的。在实践中,有时组合使用这些方法,或与其他方法(如机器学习预测填补)结合使用,能够获得更好的结果。