5分类的变量,转化为哑变量后,少一个,只需要4个就可以了。
在统计和机器学习中,将分类变量转换为哑变量(也称为虚拟变量)是一种常用的技术。对于一个有 \( k \) 个类别(水平)的分类变量,通常需要 \( k - 1 \) 个哑变量来表示,因为这种方法避免了多重共线性问题。
对于“借款用途”这个变量,有五个水平:娱乐、培训、生活基础、旅游、其他。
转为哑变量时,我们通常选择一个类别作为基准(参考类别),其余的类别各生成一个哑变量。因此:
- 选择一个类别作为基准,这里假设选择“其他”作为基准。
- 生成的哑变量有:娱乐、培训、生活基础、旅游。
因此,正确答案是 C: 4。
### 专业分析
在哑变量编码(Dummy Coding)中:
- 每个哑变量代表一个类别。
- 基准类别不需要单独的哑变量,因为它可以通过所有哑变量都为 0 来表示。
这样的编码方式确保了在回归分析中能够避免多重共线性,即避免变量之间的冗余信息导致的数学问题。
| 借款用途水平 | 哑变量:娱乐 | 哑变量:培训 | 哑变量:生活基础 | 哑变量:旅游 |
|---------------|--------------|--------------|----------------|--------------|
| 娱乐 | 1 | 0 | 0 | 0 |
| 培训 | 0 | 1 | 0 | 0 |
| 生活基础 | 0 | 0 | 1 | 0 |
| 旅游 | 0 | 0 | 0 | 1 |
| 其他(基准) | 0 | 0 | 0 | 0 |
这种编码方法使模型简单且有效,同时保证结果的可解释性。