建立贷款违约风险识别模型的关键因素-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某互联网金融企业希望建立一套小额借贷违约风险识别模型，即识别出哪些贷款可能违约，目前其拥有的历史贷款数据70万条，变量分别为年龄（数值）、职业（分类）、月收入（数值）、是否有房（分类）、贷款利率（数值）、月还款（数值）、历史累计贷款（数值）、历史累计违约次数（数值）、是否违约（分类），其中变量“是否违约“表示这笔贷款最终是否发生违约，是分类变量。那么下列说法错误的是（）。

A. “建模之前应该先用描述性统计的方法刻画数据特征”

B. “建模的之前需要考虑正负样本比例”

C. “由于需要对贷款违约的影响因素进行归因，应该使用多元线性回归分析”

D. “这个问题可以用逻辑回归进行分析”

上一题

下一题

题目解析

题目评论(0)

建模之前需要使用描述性统计分析和可视化方法进行数据特征刻画，筛选不显著相关的变量；建模时候正负样本比例最好保持在1:1~1:5；此问题为分类问题，可以选择逻辑回归。

在建立小额借贷违约风险识别模型时，以下是对每个选项的分析：

- **A: “建模之前应该先用描述性统计的方法刻画数据特征”**
- 这是正确的。描述性统计分析有助于理解数据的基本特征、分布和潜在的偏差或异常值。对数据进行初步探查可以帮助发现变量之间的关系和数据质量问题。

- **B: “建模的之前需要考虑正负样本比例”**
- 这是正确的。考虑正负样本比例是重要的，因为数据集可能存在类别不平衡问题，即违约的样本可能远少于未违约的样本。类别不平衡可能影响模型的性能，因此需要使用技术来处理不平衡，如过采样、欠采样或使用惩罚性更强的分类算法。

- **C: “由于需要对贷款违约的影响因素进行归因，应该使用多元线性回归分析”**
- 这说法是错误的。多元线性回归用于预测数值型变量，而违约预测是一个分类问题（是否违约是一个二分类问题：是或否）。因此，多元线性回归不适合用于违约风险的识别。可以使用逻辑回归来分析，因为逻辑回归适用于处理二分类问题，并且可以提供每个特征对结果的影响的解释。

- **D: “这个问题可以用逻辑回归进行分析”**
- 这是正确的。逻辑回归是解决二分类问题的常用方法，可以有效地用于分析违约风险，并提供特征影响因素的归因。

因此，**错误的说法是 C**。

### 专业分析总结
在违约风险识别建模中：

- **数据理解和准备**非常关键，应先进行描述性统计。
- **类别不平衡**可能导致模型偏向于多数类，需要适当处理。
- **逻辑回归**是合适的选择，适用于二分类问题，并提供解释能力。
- 使用**多元线性回归**分析分类问题是不合适的。