N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义, 噪声过多,且无法与许多资源结合,会大大影响后续的分析。所以C错误。
关于N-Gram模型的说法,正确的选项是:D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。
以下是对各个选项的分析:
A: N-Gram的优点是不需要进行中文分词。
- 错误。N-Gram模型在处理中文时,通常仍然需要进行分词。中文没有明显的词边界,如果不进行分词,直接使用N-Gram会导致生成的N-Gram片段可能没有实际意义。
B: 当N够大时,所有正确的分词均会出现于N-Gram中。
- 错误。即使N足够大,也不能保证所有正确的分词都会出现,因为N-Gram模型依赖于训练语料的覆盖范围和质量。如果训练数据不够全面或有偏差,某些正确的分词可能仍然不会出现在N-Gram中。
C: 噪声少,可以与许多资源结合。
- 错误。N-Gram模型并不特别强调噪声少的问题。实际上,N-Gram模型可能会受到数据稀疏性和噪声的影响。此外,N-Gram模型本身是一个比较简单的统计模型,虽然可以结合其他资源,但这并不是其主要特点。
D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。
- 正确。N-Gram模型主要依赖于统计共现频率,而不考虑语法和语义信息,因此生成的N-Gram片段可能缺乏语法和语义上的意义。这也是N-Gram模型的一个主要缺点。
综上所述,正确答案是D。