考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

由于竞争加剧,某电信公司用户流失情况日趋严重,为了更好的预测用户的未来流失的可能性,数据分析团队准备建立客户流失的预测模型,用于提前了解用户流失的倾向,进行提前挽留和客户关怀,结合客户流失建模过程中的具体问题,请回答以下2道题目。 (2)以下关于数据诊断清洗的说法哪些是正确的:
A. 数据在人工输入时是会出现数据错误,比如年龄,性别等数据项
B. python数据清洗中,对于二分类的分类变量0-1数值化后可以不用再做get_dummies处理,同理多分类变量也只需数值化即可
C. 数据误差不会影响模型建立的准确性,因为预测是概率性的
D. 线性回归建模,一般不用关注异常值
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

多分类变量需要做哑变量转换。数据误差当然会影响准确性。线性回归很容易受到异常值的影响

关于数据诊断清洗的说法,以下是正确的分析:

A: 数据在人工输入时是会出现数据错误,比如年龄,性别等数据项。
- **正确**。人工输入数据时确实可能会出现错误,例如年龄输入超出合理范围、性别输入错误等。这些错误需要在数据清洗过程中进行检查和纠正。

B: python数据清洗中,对于二分类的分类变量0-1数值化后可以不用再做get_dummies处理,同理多分类变量也只需数值化即可。
- **不正确**。对于二分类变量,确实可以使用0和1进行编码,不需要额外的处理。但是对于多分类变量,直接数值化(如将类别1编码为1,类别2编码为2,类别3编码为3等)是不合适的,因为这样会引入虚假的顺序关系。正确的做法是使用`get_dummies`或其他方法进行独热编码(one-hot encoding)。

C: 数据误差不会影响模型建立的准确性,因为预测是概率性的。
- **不正确**。数据误差会影响模型的准确性。无论预测是否是概率性的,数据中的误差和噪声都会影响模型的训练效果,导致模型的预测能力下降。因此,数据清洗是非常重要的步骤。

D: 线性回归建模,一般不用关注异常值。
- **不正确**。线性回归对异常值非常敏感,异常值会对模型的拟合产生很大影响。异常值可能会导致模型的系数估计偏离,影响模型的预测性能。因此,在线性回归建模过程中,识别和处理异常值是必要的。

综合分析,正确的答案是:

A: 数据在人工输入时是会出现数据错误,比如年龄,性别等数据项。