考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某互联网金融企业希望建立一套小额借贷违约风险识别模型,即识别出哪些贷款可能违约,目前其拥有的历史贷款数据70万条,变量分别为年龄(数值)、职业(分类)、月收入(数值)、是否有房(分类)、贷款利率(数值)、月还款(数值)、历史累计贷款(数值)、历史累计违约次数(数值)、是否违约(分类),其中变量“是否违约“表示这笔贷款最终是否发生违约,是分类变量。那么下列说法错误的是( )。
A. “建模之前应该先用描述性统计的方法刻画数据特征”
B. “建模的之前需要考虑正负样本比例”
C. “由于需要对贷款违约的影响因素进行归因,应该使用多元线性回归分析”
D. “这个问题可以用逻辑回归进行分析”
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

建模之前需要使用描述性统计分析和可视化方法进行数据特征刻画,筛选不显著相关的变量;建模时候正负样本比例最好保持在1:1~1:5;此问题为分类问题,可以选择逻辑回归。

在建立小额借贷违约风险识别模型时,以下是对每个选项的分析:

- **A: “建模之前应该先用描述性统计的方法刻画数据特征”**
- 这是正确的。描述性统计分析有助于理解数据的基本特征、分布和潜在的偏差或异常值。对数据进行初步探查可以帮助发现变量之间的关系和数据质量问题。

- **B: “建模的之前需要考虑正负样本比例”**
- 这是正确的。考虑正负样本比例是重要的,因为数据集可能存在类别不平衡问题,即违约的样本可能远少于未违约的样本。类别不平衡可能影响模型的性能,因此需要使用技术来处理不平衡,如过采样、欠采样或使用惩罚性更强的分类算法。

- **C: “由于需要对贷款违约的影响因素进行归因,应该使用多元线性回归分析”**
- 这说法是错误的。多元线性回归用于预测数值型变量,而违约预测是一个分类问题(是否违约是一个二分类问题:是或否)。因此,多元线性回归不适合用于违约风险的识别。可以使用逻辑回归来分析,因为逻辑回归适用于处理二分类问题,并且可以提供每个特征对结果的影响的解释。

- **D: “这个问题可以用逻辑回归进行分析”**
- 这是正确的。逻辑回归是解决二分类问题的常用方法,可以有效地用于分析违约风险,并提供特征影响因素的归因。

因此,**错误的说法是 C**。

### 专业分析总结
在违约风险识别建模中:

- **数据理解和准备**非常关键,应先进行描述性统计。
- **类别不平衡**可能导致模型偏向于多数类,需要适当处理。
- **逻辑回归**是合适的选择,适用于二分类问题,并提供解释能力。
- 使用**多元线性回归**分析分类问题是不合适的。