-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

为提升某金融风控模型对“欺诈团伙识别”的能力，团队使用LightGBM在包含用户交易网络图特征（如“二度关联人平均逾期次数”）的数据集上训练。模型AUC达0.9，但上线后误伤大量正常用户。经查，特征重要性排名前三均为网络图特征，且这些特征在训练集中对少量“强团伙欺诈”样本（占比<0.5%）有极高分裂增益，导致模型对普通个体欺诈（主流业务）判别力弱。此时，可能有效的改进措施有：

A. 在fit时设置is_unbalance=True或调整scale_pos_weight，从损失函数层面缓解样本不均衡。

B. 为LightGBM启用boosting_type='dart'模式，通过随机丢弃树来降低对特定强特征的高依赖。

C. 在特征工程阶段，对网络图特征进行分箱平滑处理，并与其他静态特征进行交叉，稀释其独特性。

D. 大幅度降低num_leaves和max_depth，同时提升min_child_samples，以限制模型学习过于具体的规则。

上一题

下一题

题目解析

题目评论(0)

本题核心是模型对高频噪声特征（对少数特异样本过拟合）的过度依赖。A主要应对正负样本数量不均衡，但题干问题是“特征对少数特异样本过拟合”，而非类别不均衡。B（DART）通过随机丢弃已有树能有效打破对强特征的依赖。C通过特征工程削弱该特征的极端值影响。D通过剪枝参数限制模型复杂度，防止其学习到过于具体的规则（如用网络特征精确捕捉那几个团伙）。B、C、D从算法、特征、结构三个不同角度提供了解决方案。