考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

如果要对df表的字段进行缺失值筛选,缺失率达到80%以上的字段,需要被删除,可以使用以下哪个方法?
A. df.dropna(axis=1,thresh=df.shape[0]*0.2)
B. df.dropna(axis=0,thresh=df.shape[0]*0.2)
C. df.dropna(axis=1,thresh=df.shape[0]*0.8)
D. df.dropna(axis=0,thresh=df.shape[0]*0.8)
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是:A: `df.dropna(axis=1, thresh=df.shape[0]*0.2)`

分析:

1. **目标**:我们希望删除缺失率达到80%以上的字段。也就是说,保留缺失率小于等于20%的字段。换句话说,一个字段至少要有20%的非缺失值才能被保留。

2. **参数解释**:
- `axis=1`:表示对列进行操作。
- `thresh`:指定非缺失值的最小数量。对于一个字段(列)来说,如果非缺失值的数量小于这个阈值,那么该列将被删除。

3. **计算阈值**:
- `df.shape[0]`:表示DataFrame的行数。
- `df.shape[0] * 0.2`:表示每列至少要有20%的非缺失值。换句话说,允许最多80%的缺失值。

因此,选项A中`thresh=df.shape[0]*0.2`确保了每列至少有20%的非缺失值,符合题目要求删除缺失率达到80%以上的字段。