新用户注册
备考刷题,请到
CDA认证小程序
无解析
在这个分布中,点评数量显然是不均衡的,大多数商家的点评数量集中在较低的范围内,而少数商家的点评数量则非常高。这种分布通常属于长尾分布。 为了让离散化后的每个分箱中的数量接近,应该使用的分箱方法是**等深分箱**(C)。下面是专业分析: 1. **等宽分箱**(D):这种方法将数据范围均分成若干个区间,每个区间的宽度相等。在点评数量分布不均衡的情况下,等宽分箱会导致某些区间内的数据点非常少,而另一些区间内的数据点非常多,无法达到每个分箱中数量接近的效果。 2. **对数分箱**(A):这种方法适用于数据呈指数增长的情况,通过对数变换可以使数据分布更加均匀,但它并不保证每个分箱中的数量接近。 3. **人工分箱**(B):这种方法需要根据具体情况手动划分区间,虽然可以达到每个分箱数量接近的效果,但需要对数据有较深的了解和经验,不具有普遍适用性。 4. **等深分箱**(C):这种方法将数据按照数量均分成若干个区间,使得每个区间内的数据点数量相等。在点评数量分布不均衡的情况下,等深分箱能够很好地平衡每个分箱中的数据点数量,从而使得离散化后的每个分箱中的数量接近。 综上所述,正确答案是**C: 等深分箱**。