正确答案是:D: 上述所有方法均可。下面是对每种方法的专业分析:
| 方法 | 描述 | 适用于文本相似度 | 分析 |
|------|------|-----------------|------|
| **A: 词向量模型** | 通过在大规模语料上训练词向量(如Word2Vec、GloVe等),捕捉词语的语义和上下文信息。 | 是 | 词向量模型可以将文本表示为向量,计算文本间的欧式距离或余弦相似度来判断相似性。优点是能够捕捉语义,但需要大量数据进行训练。 |
| **B: 词袋模型** | 统计文本中每个词的出现频率,不考虑词序。 | 是 | 词袋模型简单易用,适合初步的文本相似度分析,但忽略了词语之间的关系和上下文语境。通过TF-IDF加权可以在一定程度上改进。 |
| **C: 文档-单词矩阵与余弦相似性** | 创建一个矩阵,行表示文档,列表示词,计算文档向量间的余弦相似度。 | 是 | 这种方法通过衡量文档向量的角度差异来计算相似度,适用于文本分类和聚类等任务,但同样不捕捉词序及上下文。 |
总之,A、B和C方法均可用于文本相似度问题,各有优缺点。选择合适的方法通常取决于具体应用场景、数据规模和计算资源。