考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

我们有一个来自于大众点评的数据,数据集保存了用户对商家的点评数据,每个商家都有一个点评数量,假设我们的任务是使用协同过滤方法预测某用户给某商家的打分,点评数量会是一个非常有用的特征,因为人气和高评分之间有很强的相关性。现在我们将点评数量的分布绘制出来,如图所示 (2)在这个分布中,数量的否是不是很均衡,如果我们想要让离散化后的每个分箱中的数量接近,应该使用的分箱方法是:
A. 对数分箱
B. 人工分箱
C. 等深分箱
D. 等宽分箱
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在这个分布中,我们可以观察到点评数量的分布是不均衡的,通常呈现出长尾分布的特点,即少数商家有大量点评,而大多数商家的点评数量较少。

为了让离散化后的每个分箱中的数量接近,我们需要选择一种能够平衡每个分箱中样本数量的方法。以下是对各个分箱方法的分析:

A: **对数分箱**
对数分箱适用于数据的范围跨越多个数量级的情况。它通过对数据取对数后再进行分箱,可以有效处理长尾分布的数据,使得分箱更均衡。

B: **人工分箱**
人工分箱是根据经验或具体业务需求手动设定分箱的边界。这种方法的灵活性较高,但需要对数据有较深入的了解,且不一定能保证每个分箱的数量接近。

C: **等深分箱**
等深分箱(等频分箱)是指将数据按数量分成相同数量的分箱。每个分箱包含的样本数量相同或接近。这种方法可以很好地平衡每个分箱中的样本数量,适用于数据分布不均衡的情况。

D: **等宽分箱**
等宽分箱是指将数据按范围分成相等宽度的分箱。每个分箱的范围相同,但由于数据分布的不均衡,可能会导致某些分箱中的样本数量过多或过少。

综合以上分析,**等深分箱**(C)是最适合的方法,因为它可以确保每个分箱中的数量接近,从而更好地处理点评数量分布不均衡的问题。

所以,正确答案是:**C: 等深分箱**。