数据分析师如何处理高缺失率字段-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

如果要对df表的字段进行缺失值筛选，缺失率达到80%以上的字段，需要被删除，可以使用以下哪个方法？

A. df.dropna(axis=1,thresh=df.shape[0]*0.2)

B. df.dropna(axis=0,thresh=df.shape[0]*0.2)

C. df.dropna(axis=1,thresh=df.shape[0]*0.8)

D. df.dropna(axis=0,thresh=df.shape[0]*0.8)

上一题

下一题

题目解析

题目评论(0)

正确答案是：A: `df.dropna(axis=1, thresh=df.shape[0]*0.2)`

分析：

1. **目标**：我们希望删除缺失率达到80%以上的字段。也就是说，保留缺失率小于等于20%的字段。换句话说，一个字段至少要有20%的非缺失值才能被保留。

2. **参数解释**：
- `axis=1`：表示对列进行操作。
- `thresh`：指定非缺失值的最小数量。对于一个字段（列）来说，如果非缺失值的数量小于这个阈值，那么该列将被删除。

3. **计算阈值**：
- `df.shape[0]`：表示DataFrame的行数。
- `df.shape[0] * 0.2`：表示每列至少要有20%的非缺失值。换句话说，允许最多80%的缺失值。

因此，选项A中`thresh=df.shape[0]*0.2`确保了每列至少有20%的非缺失值，符合题目要求删除缺失率达到80%以上的字段。