考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

教育水平可以被分为 小学、中学、大学、硕士、博士 5类。若需要对其进行哑变量转换,应转成几个变量? ( )
A. 5个
B. 4个
C.  2个
D. 1个
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是:B: 4个。

### 哑变量转换分析

**哑变量转换(Dummy Variable Encoding)**:
- 使用哑变量进行编码是为了在回归分析或机器学习中表示类别数据。由于模型通常不能直接处理类别数据,需要将其转换为数值形式。

**编码规则**:
- 对于有 \( n \) 个类别的分类变量,需要创建 \( n-1 \) 个哑变量。
- 其中一个类别作为基准(参考)类别,不需要单独的哑变量。其值可通过其他哑变量的0/1值推导得出。

### 具体应用

在这个问题中:
- 教育水平被分为5类:小学、中学、大学、硕士、博士。
- 需要创建 \( 5-1 = 4 \) 个哑变量。
- 假设使用“小学”作为基准参考类别,其他四类(中学、大学、硕士、博士)则分别用一个哑变量来表示。

这样,哑变量的设置可以如下:

| 小学 | 中学 | 大学 | 硕士 | 博士 |
|------|------|------|------|------|
| 0 | 1 | 0 | 0 | 0 |
| 0 | 0 | 1 | 0 | 0 |
| 0 | 0 | 0 | 1 | 0 |
| 0 | 0 | 0 | 0 | 1 |

在模型中,若某观测值的所有哑变量均为0,则意味着该观测值对应的类别为“小学”。

因此,选择 B: 4个,是正确的答案。