CDA认证考试统计学三数据分析师考察内容-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

现在有一个实际的问题需要建立回归模型，被解释变量是企业利润率，解释变量之一企业性质，假定企业性质有国有企业，集体企业等5个类别，那么在我们构建模型的过程中哪种做法是正确的

A. 要建立logistic回归模型

B. 无法将这个变量加入到回归模型中去

C. 将企业性质变量变为5个虚拟变量，然后在回归模型中加入这5个虚拟变量中的4个变量到回归模型中去

D. 把企业性质变量变成一个数值变量，用数字代表各个类别，然后将这个数值化后的变量加入到回归模型中去

上一题

下一题

题目解析

题目评论(0)

回归模型中如果解释变量是分类变量应该将这个分类变量转化成若干个虚拟变量，虚拟变量的个数为类别数k，加入到回归模型中的虚拟变量的个数最多为k-1个

在给定的选项中，正确的做法是：

C: 将企业性质变量变为5个虚拟变量，然后在回归模型中加入这5个虚拟变量中的4个变量到回归模型中去。

### 分析：

1. **A: 建立logistic回归模型**
Logistic回归模型用于处理二分类问题，而题目中我们需要建立的是一个回归模型用于预测连续的企业利润率，因此不适用logistic回归。

2. **B: 无法将这个变量加入到回归模型中去**
这是不正确的，因为分类变量可以通过适当处理转化为模型能够识别的形式，从而纳入回归模型。

3. **C: 虚拟变量（Dummy Variables）**
- **虚拟变量介绍**：虚拟变量是用于将分类变量（如企业性质）转化为数值变量的方法。通过引入多个二进制（0/1）变量来表示各个类别。
- **使用4个虚拟变量**：假设有5个类别，为避免多重共线性问题（即虚拟变量陷阱），在模型中只需包括\( k-1 \)个虚拟变量（这里是4个），而省略一个作为基准类别。
- **模型解释**：这样做的好处是，模型中的每一个虚拟变量的系数表示与基准类别企业性质相比，对企业利润率的影响。

4. **D: 把企业性质变成一个数值变量**
- 这种做法错误地假设了类别之间存在某种顺序或线性关系，从而可能导致模型错误推断。因此，不建议使用数值化的单一变量表示类别。

使用虚拟变量是常用且正确的做法，可以帮助模型正确理解并解释类别变量所带来的影响。这样也能保证模型的线性假设不被破坏。