几种文本特征向量化方法:词集模型:One-Hot编码向量化文本(统计各词在文本中是否出现)词袋模型:CountVectorizer文本向量化(考虑了词频)词袋模型+IDF:基于TF-IDF方法向量化文本(考虑了词的重要性,但是会出现词表膨胀的问题)词嵌入模型:将各词映射为实数域上的向量,词向量之间的几何关系表示词之间的语义关系。以Word2Vec为典型代表。Word2Vec和GloVe模型是词嵌入模型的两个流行方法。
正确答案是:A: 基于全局词频统计的词表征算法。
### 分析:
- **A: 基于全局词频统计的词表征算法**
- 这是正确的。GloVe(Global Vectors for Word Representation)模型是基于全局词频统计的词表征算法。它通过统计词在整个语料库中共现的频率,构建一个共现矩阵,然后进行矩阵分解来得到词向量。
- **B: 基于"文档-词"矩阵分解**
- 这是错误的。GloVe模型并不是直接基于“文档-词”矩阵分解,而是基于词共现矩阵来进行分解的。它的核心思想是利用全局共现信息来构建词向量。
- **C: 属于神经网络模型**
- 这是错误的。GloVe模型并不是一个神经网络模型。它是通过矩阵分解技术来生成词向量,而不是通过训练神经网络来完成的。
- **D: 基于词预测的词嵌入模型**
- 这是错误的。基于词预测的词嵌入模型通常指的是像Word2Vec中的Skip-gram和CBOW模型。GloVe模型不是基于词预测的,而是基于统计共现信息来生成词向量的。
综上所述,GloVe模型的核心是基于全局词频统计来构建词向量,因此选项A是正确的。