考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

非结构化文本就是自然状态下的文本,结构化文本就是向量化文本,是计算机语言可以识别的文本表示。以下哪些属于非结构转结构数据-词的表示法?
A. 词袋模型(Bag of Word, BoW)
B. Glove
C. TF-IDF
D. Word2Vec(Skip-Gram & CBOW)
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

非结构化文本就是自然状态下的文本,结构化文本就是向量化文本,是计算机语言可以识别的文本表示。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。

正确答案是:A: 词袋模型(Bag of Word, BoW) B:Glove C:TF-IDF D: Word2Vec(Skip-Gram & CBOW)

这些方法都属于将非结构化文本转化为结构化数据的词表示法。以下是专业分析:

1. **词袋模型(Bag of Words, BoW)**:
- 词袋模型是一种简单且常用的文本表示方法。它通过统计文本中每个词出现的频率来表示文本,而不考虑词的顺序。每个文本被表示为一个词频向量。

2. **TF-IDF**:
- TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在一个文档集合中的重要性。它结合了词频(TF)和逆文档频率(IDF)来对词进行加权,从而得到一个更具代表性的词向量。

3. **Word2Vec (Skip-Gram & CBOW)**:
- Word2Vec 是一种基于神经网络的词向量表示方法。它通过训练一个浅层神经网络,将词映射到一个连续的向量空间中。Skip-Gram 和 CBOW(Continuous Bag of Words)是 Word2Vec 的两种训练方法。Skip-Gram 通过预测上下文词来训练词向量,而 CBOW 则通过上下文词来预测目标词。

4. **Glove**:
- Glove(Global Vectors for Word Representation)是一种基于全局共现矩阵的词向量表示方法。它通过统计词在整个语料库中的共现信息来训练词向量,从而捕捉词与词之间的语义关系。

以上方法都将非结构化的文本数据(自然语言文本)转化为计算机可以处理的结构化数据(向量表示),因此都属于非结构转结构数据的方法。