非结构化文本就是自然状态下的文本,结构化文本就是向量化文本,是计算机语言可以识别的文本表示。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。
在自然语言处理(NLP)中,非结构化文本数据需要转换为结构化数据,以便计算机能够处理和分析。词的表示法是将文本数据从非结构化转化为结构化的一种方法。以下是对选项的分析:
A: 词袋模型(Bag of Words, BoW)——词袋模型是一种简单且常用的文本表示方法,它将文本表示为词频向量。每个文档被表示为一个向量,其中每个元素表示词汇表中某个词在该文档中出现的次数。这种方法将非结构化文本转化为结构化的向量表示。
B: Glove(Global Vectors for Word Representation)——Glove是一种词嵌入方法,通过在大规模语料库上进行训练,生成每个词的稠密向量表示。这种方法也是将非结构化文本转化为结构化的向量表示。
C: TF-IDF(Term Frequency-Inverse Document Frequency)——TF-IDF是一种常用的文本表示方法,结合了词频(TF)和逆文档频率(IDF),以衡量一个词在文档中的重要性。它将文本表示为稀疏向量,属于结构化表示。
D: Word2Vec(Skip-Gram & CBOW)——Word2Vec是一种通过神经网络训练生成词嵌入的技术,包括Skip-Gram和CBOW两种模型。它将词语表示为稠密向量,是一种结构化表示方法。
综上所述,所有选项A(词袋模型)、B(Glove)、C(TF-IDF)和D(Word2Vec)都属于将非结构化数据转化为结构化数据的方法。因此,正确答案是:
A: 词袋模型(Bag of Words, BoW)
B: Glove
C: TF-IDF
D: Word2Vec(Skip-Gram & CBOW)