考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

一个多分类的变量“借款用途”,其水平有“娱乐”、“培训”、“生活基础”、 “旅游”、“其他”。将其转为哑变量后,有( )个对应的分类变量
A. 1
B. 3
C. 4
D. 5
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

5分类的变量,转化为哑变量后,少一个,只需要4个就可以了。

在统计和机器学习中,将分类变量转换为哑变量(也称为虚拟变量)是一种常用的技术。对于一个有 \( k \) 个类别(水平)的分类变量,通常需要 \( k - 1 \) 个哑变量来表示,因为这种方法避免了多重共线性问题。

对于“借款用途”这个变量,有五个水平:娱乐、培训、生活基础、旅游、其他。

转为哑变量时,我们通常选择一个类别作为基准(参考类别),其余的类别各生成一个哑变量。因此:

- 选择一个类别作为基准,这里假设选择“其他”作为基准。
- 生成的哑变量有:娱乐、培训、生活基础、旅游。

因此,正确答案是 C: 4。

### 专业分析

在哑变量编码(Dummy Coding)中:
- 每个哑变量代表一个类别。
- 基准类别不需要单独的哑变量,因为它可以通过所有哑变量都为 0 来表示。

这样的编码方式确保了在回归分析中能够避免多重共线性,即避免变量之间的冗余信息导致的数学问题。

| 借款用途水平 | 哑变量:娱乐 | 哑变量:培训 | 哑变量:生活基础 | 哑变量:旅游 |
|---------------|--------------|--------------|----------------|--------------|
| 娱乐 | 1 | 0 | 0 | 0 |
| 培训 | 0 | 1 | 0 | 0 |
| 生活基础 | 0 | 0 | 1 | 0 |
| 旅游 | 0 | 0 | 0 | 1 |
| 其他(基准) | 0 | 0 | 0 | 0 |

这种编码方法使模型简单且有效,同时保证结果的可解释性。