CDA认证考试机器学习二数据分析师考察内容-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

小王为了运用逻辑回归进行反欺诈识别，直接从数据库中运用简单随机抽样的方法进行抽样，并得到了10000条样本，其中7000作为训练，3000作为测试，在测试集中小王的正负样本整体预测准确率为99.7%，下面表述错误的是（）

A. 模型的整体预测准确率很高，因此可以认为模型结果是可靠的

B. 有必要进一步查看混淆矩阵

C. 有必要查看正负样本比例

D. 反欺诈问题中，运用简单随机抽样是欠妥的

上一题

下一题

题目解析

题目评论(0)

反欺诈问题中，正负样本一般都是非对称的。不能直接抽样，需要处理样本比例。

正确答案是：A: 模型的整体预测准确率很高，因此可以认为模型结果是可靠的。

### 专业分析：

在反欺诈识别中，过高的整体预测准确率并不一定表明模型结果可靠，这是因为反欺诈场景通常是一个不平衡分类问题，即欺诈交易（正样本）数量远少于正常交易（负样本）。此时模型可能通过简单地预测所有样本为负类（正常交易）来获得高准确率，而实际上没有有效识别欺诈交易。因此，A选项的表述是错误的。

其他选项分析：

- **B: 有必要进一步查看混淆矩阵**
- 查看混淆矩阵可以帮助分析模型在各个类别上的表现，尤其是对正负样本的正确分类情况。因此，查看混淆矩阵是非常必要的。

- **C: 有必要查看正负样本比例**
- 检查正负样本比例能帮助判断数据集是否平衡，从而评估模型的训练和预测情况。因此，查看正负样本比例是有必要的。

- **D: 反欺诈问题中，运用简单随机抽样是欠妥的**
- 简单随机抽样可能导致训练集和测试集中正负样本比例失衡，影响模型的评估和效果。在不平衡数据集的情况下，通常需要采取其他方法，如分层抽样、过采样、欠采样或使用调整过的评价指标（如ROC、AUC、F1-score）等。因此，D选项也是正确的。

综上所述，A选项是错误的。