4分类的变量,转化为哑变量后,少一个,只需要3个就可以了。
对于多分类变量转为哑变量(也称为虚拟变量)的过程,如果原有的分类变量有 \( k \) 个不同的类别(或水平),通常需要 \( k-1 \) 个哑变量来表示。这个方法主要是为了解决多重共线性问题,其中一个类别可以通过其余类别的组合来表示。
在你的问题中,原始变量“班级类型”有四个水平:“A”,“B”,“C”,“D”。因此,可以将其转化为 3 个哑变量。
例如,可以定义哑变量如下:
- \( X_1 \): 当 “班级类型” 为 “A” 时,\( X_1 = 1 \),否则 \( X_1 = 0 \)
- \( X_2 \): 当 “班级类型” 为 “B” 时,\( X_2 = 1 \),否则 \( X_2 = 0 \)
- \( X_3 \): 当 “班级类型” 为 “C” 时,\( X_3 = 1 \),否则 \( X_3 = 0 \)
在这种表示方式下,“D” 类别则由 \( X_1 = 0 \), \( X_2 = 0 \), \( X_3 = 0 \) 表示。
因此,正确答案是 C: 3。