考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

类别型数据的处理方式有()(多选)
A. 序号编码
B. one-hot编码
C. 二进制编码
D. 分箱
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

类别型数据的处理方式有多种,以下是根据选项的正确答案及专业分析:

### 正确答案:
- A: 序号编码
- B: one-hot编码
- C: 二进制编码

### 专业分析:

| 处理方式 | 描述 | 优势 | 劣势 |
|---------------|-------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------|----------------------------------------------------|
| 序号编码 | 将类别型变量转换为整数值,每个类别对应一个唯一的整数编号(如A=1, B=2, C=3等)。 | 简单易懂,节省内存空间。 | 引入了类别间的顺序关系,可能导致模型误解。 |
| One-hot编码 | 为每个类别创建一个新的二进制变量(列),如果样本属于该类别,则该变量值为1,否则为0。 | 消除了类别之间的顺序关系,广泛用于许多算法。 | 当类别数量大时会导致维度爆炸,消耗更多内存和计算资源。 |
| 二进制编码 | 将类别型变量转换为二进制格式,然后将每个位作为一个特征。 | 减少了维度爆炸的问题,保留了部分类别信息。 | 较为复杂,可能引入噪声。 |
| 分箱 | 通常用于数值型变量,将连续数据分段并转换为类别型数据。例如,将年龄分为“青年”、“中年”、“老年”三个类别。 | 简化了模型,处理缺失值和异常值较好。 | 依赖于分箱的合理性,可能损失数据的精细信息。 |

> **注意**:分箱通常是用于数值型数据的处理,而非类别型数据的编码方法,因此不在此次多选题的合适选项中。

在数据处理时,应根据具体应用场景和数据特点选择合适的编码方式,以达到最佳的建模效果。