统计式分词的优缺点:
优点:
• 能够处理大多数常用词带来的歧义问题
• 在训练语料规模足够大和覆盖领域足够多的情况下,可以获得较高的切分正确率 (>=95%)
缺点:
• 不能处理新词以及新词带来的歧义问题
• 需要很大的训练语料
• 分词速度相对较慢
正确答案是:D: 不能够处理大多数常用词带来的歧义问题。
### 专业分析:
统计式分词方法主要依赖于大规模的训练语料库,通过统计词频和共现概率来进行分词。以下是对各选项的分析:
A: **不能处理新词以及新词带来的歧义问题**
- 这种说法是正确的。统计式分词依赖于已有的训练语料库,对于没有出现在训练语料中的新词,往往无法正确识别和处理。
B: **需要很大的训练语料**
- 这种说法也是正确的。统计式分词需要大量的训练语料来保证分词的准确性和覆盖率。
C: **分词速度相对较慢**
- 这种说法是正确的。统计式分词需要进行大量的概率计算和匹配,通常比基于规则的分词方法速度较慢。
D: **不能够处理大多数常用词带来的歧义问题**
- 这种说法是错误的。实际上,统计式分词在处理高频常用词的歧义问题上表现较好,因为这些词的统计特征在大规模语料中已经被充分学习到。
因此,D选项是错误的。