考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

离散型特征的处理方式有()(多选)
A. 序号编码
B. one-hot编码
C. 二进制编码
D. 分箱
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

离散型特征的处理方式包括以下选项:

A: **序号编码**
B: **one-hot编码**
C: **二进制编码**
D: **分箱**

正确答案是:**A, B, C**。

下面是对每种方法的专业分析:

| 编码方式 | 说明 | 优缺点 |
|----------|------|--------|
| 序号编码 | 将分类特征转换为序列化的整数形式,如将红色=1,蓝色=2,绿色=3。 | 优点:简单直接,适用于有序的类别。缺点:可能引入虚假序数关系,不适用于无序类别。 |
| One-hot编码 | 将每个类别转换为一个位向量,该向量中只有一个值为1,其余为0。如红色=(1,0,0), 蓝色=(0,1,0), 绿色=(0,0,1)。 | 优点:不引入顺序关系,适用于无序离散特征。缺点:数据维度升高,可能导致稀疏矩阵。 |
| 二进制编码 | 先将类别进行序号编码,然后将这些整数转化为二进制。如红色=1=(001), 蓝色=2=(010), 绿色=3=(011)。 | 优点:比one-hot编码更加节省内存。缺点:编码后仍可能保留一些序数信息。 |
| 分箱 | 通常用于连续型特征,将其离散化为几个区间;不适用于离散型特征的直接编码。 | 分箱主要用于处理连续型变量,因此不适合本问题中的离散型特征编码。 |

综上,序号编码、one-hot编码和二进制编码是处理离散型特征的常用方法。而分箱通常用于处理连续型特征,因此不适用于处理离散型特征。