几种文本特征向量化方法:
词集模型:One-Hot编码向量化文本(统计各词在文本中是否出现)
词袋模型:CountVectorizer文本向量化(考虑了词频)
词袋模型+IDF:基于TF-IDF方法向量化文本(考虑了词的重要性,但是会出现词表膨胀的问题)
词嵌入模型:将各词映射为实数域上的向量,词向量之间的几何关系表示词之间的语义关系。以Word2Vec为典型代表。
,Word2Vec和GloVe模型是词嵌入模型的两个流行方法。
正确答案是:A: 基于全局词频统计的词表征算法
**分析:**
GloVe(Global Vectors for Word Representation)是一种基于全局词频统计的词表征算法。它通过构建一个词共现矩阵来捕捉词与词之间的关系,并通过矩阵分解的方法获得词向量。GloVe模型的目标是使得词向量之间的点积(内积)能够很好地反映词与词之间的共现概率。
以下是对各选项的详细分析:
A: 基于全局词频统计的词表征算法
- **正确**。GloVe模型的核心思想是通过统计词在整个语料库中的共现频率来构建词向量,因此它是基于全局词频统计的词表征算法。
B: 基于"文档-词"矩阵分解
- **不完全正确**。虽然GloVe模型确实涉及到矩阵分解,但它不是基于"文档-词"矩阵,而是基于词共现矩阵。因此,这个选项不完全准确。
C: 属于神经网络模型
- **错误**。GloVe模型不是神经网络模型。神经网络模型通常指的是像Word2Vec中的Skip-Gram和CBOW模型,或者更复杂的深度学习模型如BERT、GPT等。
D: 基于词预测的词嵌入模型
- **错误**。基于词预测的词嵌入模型通常指的是Word2Vec中的Skip-Gram和CBOW模型,这些模型通过预测上下文中的词来训练词向量。而GloVe是通过统计词共现信息来训练词向量的,不涉及词预测。
因此,综合分析,选项A是正确的描述。