考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在百万歌曲数据集中(Million Song Dataset)包含某个用户对某一首歌的听歌次数,如果我们将超过1的数值转换成1,否则转换为0,这属于特征处理中的什么方案:
A. 区间化
B. 二值化
C. 分箱
D. 特征编码
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

0-1转换属于典型的二值化处理

正确答案是:B: 二值化

专业分析:
在数据处理中,二值化(Binarization)是将数值特征转换为二进制值(0和1)的过程。具体来说,对于每个特征值,如果满足某个条件(如大于某个阈值),则将其转换为1,否则转换为0。在您的问题中,将听歌次数超过1的数值转换成1,否则转换成0,正是典型的二值化操作。

A: 区间化(Binning)通常是将连续的数值特征划分为几个区间,并将每个区间内的数值映射为相同的离散值。这个过程并没有将数值转换为二进制值。

C: 分箱(Discretization)与区间化类似,是将连续特征转换为离散特征的方法,但它并不局限于二进制值。

D: 特征编码(Feature Encoding)通常指的是将分类特征转换为数值特征的过程,如独热编码(One-Hot Encoding)等。这与将数值特征二值化的过程不同。

因此,您的问题描述中提到的转换过程属于二值化(Binarization)。