-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

面对数据集中的缺失值（NaN），以下关于识别与处理策略的描述，正确的有？

A. `df.isnull().sum()` 是统计每列缺失值数量的常用方法。

B. 对于数值型特征，若数据分布近似正态且缺失比例较低，使用均值填充（`fillna(df.mean())`）通常比中位数填充更能抵抗异常值的影响。

C. `df.dropna(thresh=3)` 表示只有当一行中非空值数量少于3个时，才会删除该行。

D. 使用前向填充（`ffill`）或后向填充（`bfill`）方法特别适合时间序列数据，因为它利用了数据的时序相关性。

上一题

下一题

题目解析

题目评论(0)

A正确：`isnull()` 生成布尔掩码，`sum()` 对True求和，是标准统计手段。 B错误：均值（Mean）极易受异常值（Outliers）影响而偏离中心，中位数（Median）才是抵抗异常值的稳健统计量。若存在异常值，应优先选中位数。 C正确：`thresh` 参数定义的是“保留”该行所需的最小非空值数量。如果非空值少于3个（即0, 1, 2个），则不满足条件被删除。 D正确：时间序列数据中，当前时刻的值往往与前一时刻或后一时刻高度相关，因此 `ffill`/`bfill` 是此类场景的首选插补方式。