多分类变量需要做哑变量转换。数据误差当然会影响准确性。线性回归很容易受到异常值的影响
关于数据诊断清洗的说法,以下是正确的分析:
A: 数据在人工输入时是会出现数据错误,比如年龄,性别等数据项。
- **正确**。人工输入数据时确实可能会出现错误,例如年龄输入超出合理范围、性别输入错误等。这些错误需要在数据清洗过程中进行检查和纠正。
B: python数据清洗中,对于二分类的分类变量0-1数值化后可以不用再做get_dummies处理,同理多分类变量也只需数值化即可。
- **不正确**。对于二分类变量,确实可以使用0和1进行编码,不需要额外的处理。但是对于多分类变量,直接数值化(如将类别1编码为1,类别2编码为2,类别3编码为3等)是不合适的,因为这样会引入虚假的顺序关系。正确的做法是使用`get_dummies`或其他方法进行独热编码(one-hot encoding)。
C: 数据误差不会影响模型建立的准确性,因为预测是概率性的。
- **不正确**。数据误差会影响模型的准确性。无论预测是否是概率性的,数据中的误差和噪声都会影响模型的训练效果,导致模型的预测能力下降。因此,数据清洗是非常重要的步骤。
D: 线性回归建模,一般不用关注异常值。
- **不正确**。线性回归对异常值非常敏感,异常值会对模型的拟合产生很大影响。异常值可能会导致模型的系数估计偏离,影响模型的预测性能。因此,在线性回归建模过程中,识别和处理异常值是必要的。
综合分析,正确的答案是:
A: 数据在人工输入时是会出现数据错误,比如年龄,性别等数据项。