考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

为提升某金融风控模型对“欺诈团伙识别”的能力,团队使用LightGBM在包含用户交易网络图特征(如“二度关联人平均逾期次数”)的数据集上训练。模型AUC达0.9,但上线后误伤大量正常用户。经查,特征重要性排名前三均为网络图特征,且这些特征在训练集中对少量“强团伙欺诈”样本(占比<0.5%)有极高分裂增益,导致模型对普通个体欺诈(主流业务)判别力弱。此时,可能有效的改进措施有:
A. 在fit时设置is_unbalance=True或调整scale_pos_weight,从损失函数层面缓解样本不均衡。
B. 为LightGBM启用boosting_type='dart'模式,通过随机丢弃树来降低对特定强特征的高依赖。
C. 在特征工程阶段,对网络图特征进行分箱平滑处理,并与其他静态特征进行交叉,稀释其独特性。
D. 大幅度降低num_leaves和max_depth,同时提升min_child_samples,以限制模型学习过于具体的规则。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题核心是模型对高频噪声特征(对少数特异样本过拟合)的过度依赖。A主要应对正负样本数量不均衡,但题干问题是“特征对少数特异样本过拟合”,而非类别不均衡。B(DART)通过随机丢弃已有树能有效打破对强特征的依赖。C通过特征工程削弱该特征的极端值影响。D通过剪枝参数限制模型复杂度,防止其学习到过于具体的规则(如用网络特征精确捕捉那几个团伙)。B、C、D从算法、特征、结构三个不同角度提供了解决方案。