考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在一组学校学生信息数据当中,有一列数据是血型,如图所示: (1)如果我们直接将血型列数据进行顺序数值编码,存在的问题是:
A. 特征信息损失
B. 特征增加原来不存在的信息
C. 特征信息完全改变
D. 特征分布改变
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

答案:A: 特征信息损失

**专业分析:**

在数据处理和特征编码的过程中,针对类别型数据(如血型)进行数值编码时,需要考虑编码方式对数据特征的影响。

1. **顺序数值编码**:如果直接将类别型数据(如血型)进行顺序数值编码(例如:A型编码为1,B型编码为2,AB型编码为3,O型编码为4),会将类别型数据转化为具有顺序关系的数值数据。这种编码方式会引入人为的顺序关系,但实际上血型之间并不存在这种顺序关系。

2. **特征信息损失**:由于血型之间没有自然的顺序关系,顺序数值编码会导致原本类别型数据的特征信息丢失。例如,编码后的数值1和2之间的差异(A型和B型)并不具有实际意义,且编码后的数值并不能准确反映不同血型之间的关系。

3. **其他选项分析**:
- **B: 特征增加原来不存在的信息**:虽然顺序数值编码引入了顺序关系,但并没有增加新的特征信息,只是错误地引入了顺序。
- **C: 特征信息完全改变**:虽然编码改变了数据的表现形式,但并没有完全改变特征信息,只是错误地引入了顺序关系。
- **D: 特征分布改变**:编码方式不会改变数据分布,只会改变数据的表示形式。

因此,正确答案是A: 特征信息损失。为了避免这种问题,通常会使用独热编码(One-Hot Encoding)等方法来对类别型数据进行编码,以保留原始特征信息。