正确答案是 D: 以上都是。以下是对各个选项的专业分析:
| 优势 | 说明 |
|------|------|
| 向量维度低 | 独热向量的维度等于词汇表的大小,通常是几万甚至几十万的数量级。而词向量(如Word2Vec、GloVe)的维度通常较低,一般为几十到几百个维度,显著降低了计算的复杂性和存储资源需求。 |
| 向量是稠密的 | 独热向量是稀疏的,除了表示当前词的位置上是1,其他位置都是0。而词向量是稠密向量,所有位置上通常都是非零的。这使得词向量更适合在模型中作为输入特征,能够更好地捕捉词汇之间的关系。 |
| 词语向量之间的点乘可以代表二者相似度 | 在词向量空间中,词与词之间的相似性可以通过向量的余弦相似度(点乘)来衡量。相似度高的词向量在空间中彼此更加接近,这反映了它们在意义上的相似性。这是独热向量无法提供的语义信息。 |
综上所述,词向量提供了更有效的向量表示,能够减小维度、利用稠密表示与捕捉语义相似性,是独热向量的一种优越替代方案。这些优势共同提升了词向量在自然语言处理任务中的表现。