数据分析分组操作指南-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

现在我们想调查人们每天花多少时间看电视，按照“男性”和“女性”分组，我们可以使用下列哪项命令能够实现分组的操作（）。

A. df.groupby()

B. df.cut()

C. df.qcut()

D. pd.value_counts()

上一题

下一题

题目解析

题目评论(0)

正确答案是：A: df.groupby()

### 专业分析：

在数据分析中，经常需要根据某个或某些特定的列对数据进行分组，然后对每个组进行进一步的计算或统计分析。在这种情况下，我们想根据“性别”列对数据进行分组，再分别统计男性和女性每天花多少时间看电视。下面对所有选项进行分析：

1. **A: df.groupby()**
- `groupby()` 是 pandas 中用于根据一个或多个列对数据进行分组的主要方法。
- 通过 `df.groupby('gender')`，可以方便地将数据表按“性别”列分为两个组，然后对每组数据进行进一步的聚合操作（如求和、平均值等）。
- **示例代码**：
```python
grouped = df.groupby('gender')
result = grouped['watching_time'].mean() # 计算每组的平均观看时间
```

2. **B: df.cut()**
- `cut()` 函数用于将连续数据分段。例如，可以将一个年龄列分成若干年龄段。
- 它不用于数据分组，而是用于数据的区间划分。

3. **C: df.qcut()**
- `qcut()` 类似于 `cut()`，但它是基于数据的分位数进行切割。
- 主要用于将数据分成数量相等的几组，仍然不适合用于数据分组。

4. **D: pd.value_counts()**
- `value_counts()` 用于统计每个类别的频数，主要用于查看某列中每个值出现的频率。
- 不能用于按照某列对整个 DataFrame 进行分组。

综上所述，`df.groupby()` 是实现按“性别”分组的正确选择。