考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在构建医疗保险欺诈检测模型时,特征“过往拒赔次数”有30%的缺失值(NaN)。业务调研发现,系统只有在用户曾经发生过理赔申请且被拒时才有记录,未发生过理赔的用户该字段为空。为了最大化模型性能(使用XGBoost),下列处理方式最优的是:
A. 均值填充:用现有数值的均值填充NaN,保持分布中心不变。
B. 0值填充:根据业务逻辑,将NaN视为“0次拒赔”。
C. 模型自适应:保留NaN,让XGBoost自动学习缺失值的分裂方向。
D. 多重插补:利用MICE等算法根据其他特征预测并填补该字段。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

特征工程的核心是“业务翻译”。题干明确指出“未发生过理赔的用户该字段为空”,这意味着这里的NaN不是随机丢失(MCAR),而是有明确业务含义的“0”。尽管XGBoost(C选项)可以处理缺失值(默认分到增益大的一侧),但在这种明确知道缺失代表“无/0”的情况下,显式地填充为0(B选项)能给模型提供更清晰的单调性信号,且消除了模型需要从数据中“猜”出NaN代表0的不确定性。A和D都是错误的,因为这会把“没出过险的人”强行变成“平均水平”或“预测值”,扭曲了事实。