考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

面对数据集中的缺失值(NaN),以下关于识别与处理策略的描述,正确的有?
A. `df.isnull().sum()` 是统计每列缺失值数量的常用方法。
B. 对于数值型特征,若数据分布近似正态且缺失比例较低,使用均值填充(`fillna(df.mean())`)通常比中位数填充更能抵抗异常值的影响。
C. `df.dropna(thresh=3)` 表示只有当一行中非空值数量少于3个时,才会删除该行。
D. 使用前向填充(`ffill`)或后向填充(`bfill`)方法特别适合时间序列数据,因为它利用了数据的时序相关性。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

A正确:`isnull()` 生成布尔掩码,`sum()` 对True求和,是标准统计手段。 B错误:均值(Mean)极易受异常值(Outliers)影响而偏离中心,中位数(Median)才是抵抗异常值的稳健统计量。若存在异常值,应优先选中位数。 C正确:`thresh` 参数定义的是“保留”该行所需的最小非空值数量。如果非空值少于3个(即0, 1, 2个),则不满足条件被删除。 D正确:时间序列数据中,当前时刻的值往往与前一时刻或后一时刻高度相关,因此 `ffill`/`bfill` 是此类场景的首选插补方式。