CDA LEVEL Ⅲ 数据分析师考试题目-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在一组学校学生信息数据当中，有一列数据是血型，如图所示：

（1）如果我们直接将血型列数据进行顺序数值编码，存在的问题是：

A. 特征信息损失

B. 特征增加原来不存在的信息

C. 特征信息完全改变

D. 特征分布改变

上一题

下一题

题目解析

题目评论(0)

答案：A: 特征信息损失

**专业分析：**

在数据处理和特征编码的过程中，针对类别型数据（如血型）进行数值编码时，需要考虑编码方式对数据特征的影响。

1. **顺序数值编码**：如果直接将类别型数据（如血型）进行顺序数值编码（例如：A型编码为1，B型编码为2，AB型编码为3，O型编码为4），会将类别型数据转化为具有顺序关系的数值数据。这种编码方式会引入人为的顺序关系，但实际上血型之间并不存在这种顺序关系。

2. **特征信息损失**：由于血型之间没有自然的顺序关系，顺序数值编码会导致原本类别型数据的特征信息丢失。例如，编码后的数值1和2之间的差异（A型和B型）并不具有实际意义，且编码后的数值并不能准确反映不同血型之间的关系。

3. **其他选项分析**：
- **B: 特征增加原来不存在的信息**：虽然顺序数值编码引入了顺序关系，但并没有增加新的特征信息，只是错误地引入了顺序。
- **C: 特征信息完全改变**：虽然编码改变了数据的表现形式，但并没有完全改变特征信息，只是错误地引入了顺序关系。
- **D: 特征分布改变**：编码方式不会改变数据分布，只会改变数据的表示形式。

因此，正确答案是A: 特征信息损失。为了避免这种问题，通常会使用独热编码（One-Hot Encoding）等方法来对类别型数据进行编码，以保留原始特征信息。