考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在多项式贝叶斯当中,以下正确的是()(多选)
A. sklearnl里的多项式是可以处理连续型的变量,但是效果大多数情况下很差
B. 如果数据集是连续的,需要对连续型的特征做分箱的处理
C. 如果数据集里面有名义变量,需要将名义变量做独特编码
D. sklearn里的多项式允许X里面出现负数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在多项式贝叶斯分类器中,以下选项是正确的:

- **B: 如果数据集是连续的,需要对连续型的特征做分箱的处理**
多项式朴素贝叶斯适合用于离散特征,对于连续型特征,通常需要进行离散化处理,如通过分箱技术将连续特征转换为离散特征。

- **C: 如果数据集里面有名义变量,需要将名义变量做独特编码**
名义变量(categorical variables)需要进行编码处理,例如独热编码(One-Hot Encoding),以便在多项式贝叶斯模型中使用。

### 专业分析:

- **A选项分析**: 多项式朴素贝叶斯不是为处理连续变量而设计的,虽然可以对连续数据进行贝叶斯处理,但通常效果不佳,因而需要对连续特征进行离散化。

- **D选项分析**: 多项式贝叶斯期望输入特征是计数形式(即非负整数),因此在默认情况下不适合处理负数特征。如果需要处理负数,通常会选择其他适合的模型或对数据进行预处理。

总结来说,使用多项式贝叶斯时,务必确保特征数据已经过适当的离散化和编码,以符合模型的假设和要求。