考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

分类型变量的缺失值可以怎样填充?(多选)
A. 均值
B. 额外增加一类标签表示缺失
C. 中位数
D. 众数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在处理分类型(类别型)变量的缺失值时,可以选择适合的填充策略。对于分类型变量,以下选项适合用于填充缺失值:

- **B: 额外增加一类标签表示缺失**
- **D: 众数**

### 分析:

| 选项 | 适用性 | 原因 |
|------|--------|------|
| A: 均值 | ❌ | 均值适用于数值型数据,不适合分类型变量。分类型变量没有“平均值”的概念。 |
| B: 额外增加一类标签表示缺失 | ✔️ | 通过增加一个新类别来表示缺失值,可以保留信息并表明数据的完整性状况。这种方法尤其适用于ML模型,可以让模型学习缺失的特征。 |
| C: 中位数 | ❌ | 中位数通常用于连续型数值数据,不适用于分类型变量。分类型变量没有“中位数”的概念。 |
| D: 众数 | ✔️ | 众数是最常出现的类别,是填充分类型变量缺失值的常用方法,因为它可以最小化对数据分布的影响。 |

### 专业建议:

- **选择合适的方法**:在选择填充方法时,应该考虑数据集的特点、后续数据分析或建模的需求。
- **数据特征与背景**:了解数据的背景以及业务需求,有助于选择合适的缺失值填充策略。
- **潜在影响**:填充缺失值可能会对后续分析和模型性能产生影响,因此选择合适的填充策略是非常关键的。在实践中,可能需要结合交叉验证或其他方法评估填充策略的效果。