考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

我们有一个来自于大众点评的数据,数据集保存了用户对商家的点评数据,每个商家都有一个点评数量,假设我们的任务是使用协同过滤方法预测某用户给某商家的打分,点评数量会是一个非常有用的特征,因为人气和高评分之间有很强的相关性。现在我们将点评数量的分布绘制出来,如图所示 (2)在这个分布中,数量的否是不是很均衡,如果我们想要让离散化后的每个分箱中的数量接近,应该使用的分箱方法是:
A. 对数分箱
B. 人工分箱
C. 等深分箱
D. 等宽分箱
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

无解析

在这个分布中,点评数量显然是不均衡的,大多数商家的点评数量集中在较低的范围内,而少数商家的点评数量则非常高。这种分布通常属于长尾分布。

为了让离散化后的每个分箱中的数量接近,应该使用的分箱方法是**等深分箱**(C)。下面是专业分析:

1. **等宽分箱**(D):这种方法将数据范围均分成若干个区间,每个区间的宽度相等。在点评数量分布不均衡的情况下,等宽分箱会导致某些区间内的数据点非常少,而另一些区间内的数据点非常多,无法达到每个分箱中数量接近的效果。

2. **对数分箱**(A):这种方法适用于数据呈指数增长的情况,通过对数变换可以使数据分布更加均匀,但它并不保证每个分箱中的数量接近。

3. **人工分箱**(B):这种方法需要根据具体情况手动划分区间,虽然可以达到每个分箱数量接近的效果,但需要对数据有较深的了解和经验,不具有普遍适用性。

4. **等深分箱**(C):这种方法将数据按照数量均分成若干个区间,使得每个区间内的数据点数量相等。在点评数量分布不均衡的情况下,等深分箱能够很好地平衡每个分箱中的数据点数量,从而使得离散化后的每个分箱中的数量接近。

综上所述,正确答案是**C: 等深分箱**。