-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在构建医疗保险欺诈检测模型时，特征“过往拒赔次数”有30%的缺失值（NaN）。业务调研发现，系统只有在用户曾经发生过理赔申请且被拒时才有记录，未发生过理赔的用户该字段为空。为了最大化模型性能（使用XGBoost），下列处理方式最优的是：

A. 均值填充：用现有数值的均值填充NaN，保持分布中心不变。

B. 0值填充：根据业务逻辑，将NaN视为“0次拒赔”。

C. 模型自适应：保留NaN，让XGBoost自动学习缺失值的分裂方向。

D. 多重插补：利用MICE等算法根据其他特征预测并填补该字段。

上一题

下一题

题目解析

题目评论(0)

特征工程的核心是“业务翻译”。题干明确指出“未发生过理赔的用户该字段为空”，这意味着这里的NaN不是随机丢失（MCAR），而是有明确业务含义的“0”。尽管XGBoost（C选项）可以处理缺失值（默认分到增益大的一侧），但在这种明确知道缺失代表“无/0”的情况下，显式地填充为0（B选项）能给模型提供更清晰的单调性信号，且消除了模型需要从数据中“猜”出NaN代表0的不确定性。A和D都是错误的，因为这会把“没出过险的人”强行变成“平均水平”或“预测值”，扭曲了事实。