考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在文本特征表示方法中,下面说法正确的是:
A. TF-IDF统计当前文档和语料库的词频来实现特征词提取和词之间关系的确认
B. 用户信息作为特征词和类别之间的测度,如果特征词属于某类,则它们的互信息量最大
C. Glove采用三层神经网络进行训练,最后一层采用霍夫曼树(Huffuman)来预测
D. 卡方统计量是基于显著统计性来选择特征,所以不会出现低频词缺陷
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在分析选项之前,让我们首先理解每个选项所涉及的概念:

A. **TF-IDF**:TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在文档集合或语料库中的重要程度。TF-IDF考虑的是词频(TF)和逆文档频率(IDF),用于衡量一个词在特定文档中的重要性。它并不关注词之间关系的确认,而是注重词在文档中相对语料库的权重。

B. **互信息量**:互信息(Mutual Information)是一种用于评估两个变量之间相互依赖程度的度量。在特征选择中,互信息可以用来衡量特征词与类别标签之间的信息共享程度。一个特征词如果对某个类别具有高度的信息量,则互信息量较大。

C. **GloVe**:GloVe(Global Vectors for Word Representation)是一种用于获取词向量的无监督学习算法。GloVe基于全局词共现矩阵来学习词向量,而不是通过神经网络和霍夫曼树来实现。霍夫曼树通常与Word2Vec中的Skip-gram模型结合用于负采样的高效实现,而不是GloVe。

D. **卡方统计量**:卡方(Chi-square)是一种用于特征选择的统计方法,评估特征与类别标签之间的独立性。虽然卡方统计量能够识别出具有统计显著性的特征,但它并不能完全解决低频词的问题,因为低频词在统计上可能不显著。

基于以上分析,正确的说法是:
- **B: 用户信息作为特征词和类别之间的测度,如果特征词属于某类,则它们的互信息量最大**

此选项准确地描述了互信息在特征选择中的应用,而其他选项存在一些技术性错误或误解。