N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义, 噪声过多,且无法与许多资源结合,会大大影响后续的分析。所以C错误。
关于N-Gram模型的说法,正确的选项是D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。
### 分析:
A: **N-Gram的优点是不需要进行中文分词**
这个说法不完全正确。实际上,N-Gram模型在处理中文时,通常需要先进行分词,因为中文文本没有明显的单词边界。分词是预处理步骤之一,之后才会生成N-Gram。
B: **当N够大时,所有正确的分词均会出现于N-Gram中**
这个说法也不完全正确。虽然在理论上N足够大时可以捕捉到更多的词语组合,但在实际应用中,N的增大也会导致数据稀疏问题,计算复杂度显著增加,并且需要更多的训练数据来估计概率。因此,实际应用中N通常不会设置得太大。
C: **噪声少,可以与许多资源结合**
这个说法并不准确。N-Gram模型本身并没有减少噪声的机制,而且由于它仅仅依赖于固定长度的词序列,容易受到数据稀疏和噪声的影响。它也不能很好地结合其他资源来减少噪声。
D: **N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义**
这是真实的。N-Gram模型的主要缺点之一就是它仅仅考虑固定长度的词序列,而不考虑词与词之间的语法和语义关系。因此,很多生成的N-Gram并没有实际意义,特别是在处理长距离依赖关系和复杂语法结构时,N-Gram模型的表现较差。
综上所述,正确答案是D。