CDA LEVEL Ⅲ 模拟题（二）用户流失预测模型-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

由于竞争加剧，某电信公司用户流失情况日趋严重，为了更好的预测用户的未来流失的可能性，数据分析团队准备建立客户流失的预测模型，用于提前了解用户流失的倾向，进行提前挽留和客户关怀，结合客户流失建模过程中的具体问题，请回答以下2道题目。 (2)以下关于数据诊断清洗的说法哪些是正确的：

A. 数据在人工输入时是会出现数据错误，比如年龄，性别等数据项

B. python数据清洗中，对于二分类的分类变量0-1数值化后可以不用再做get_dummies处理，同理多分类变量也只需数值化即可

C. 数据误差不会影响模型建立的准确性，因为预测是概率性的

D. 线性回归建模，一般不用关注异常值

上一题

下一题

题目解析

题目评论(0)

多分类变量需要做哑变量转换。数据误差当然会影响准确性。线性回归很容易受到异常值的影响

关于数据诊断清洗的说法，以下是正确的分析：

A: 数据在人工输入时是会出现数据错误，比如年龄，性别等数据项。
- **正确**。人工输入数据时确实可能会出现错误，例如年龄输入超出合理范围、性别输入错误等。这些错误需要在数据清洗过程中进行检查和纠正。

B: python数据清洗中，对于二分类的分类变量0-1数值化后可以不用再做get_dummies处理，同理多分类变量也只需数值化即可。
- **不正确**。对于二分类变量，确实可以使用0和1进行编码，不需要额外的处理。但是对于多分类变量，直接数值化（如将类别1编码为1，类别2编码为2，类别3编码为3等）是不合适的，因为这样会引入虚假的顺序关系。正确的做法是使用`get_dummies`或其他方法进行独热编码（one-hot encoding）。

C: 数据误差不会影响模型建立的准确性，因为预测是概率性的。
- **不正确**。数据误差会影响模型的准确性。无论预测是否是概率性的，数据中的误差和噪声都会影响模型的训练效果，导致模型的预测能力下降。因此，数据清洗是非常重要的步骤。

D: 线性回归建模，一般不用关注异常值。
- **不正确**。线性回归对异常值非常敏感，异常值会对模型的拟合产生很大影响。异常值可能会导致模型的系数估计偏离，影响模型的预测性能。因此，在线性回归建模过程中，识别和处理异常值是必要的。

综合分析，正确的答案是：

A: 数据在人工输入时是会出现数据错误，比如年龄，性别等数据项。