计算机分词的研究,可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。
- 法则式分词法:以构词规则为出发点的分词方式。eg: 全切分, FMM/BM:
- 统计式分词法:利用语料库归纳出统计数据作为凭断标准的分词方式。eg: N-Gram概率模型
不能处理新词以及新词带来的歧义问题是统计式分词法的缺点。
正确答案是:A: 利用语料库归纳出统计数据作为凭断标准。
专业分析:
统计式分词法主要依赖于大量的语料库,通过对语料库中的词频、共现频率等统计数据进行分析,来确定分词的边界。以下是对各选项的详细分析:
A: 利用语料库归纳出统计数据作为凭断标准
这正是统计式分词的核心思想。统计式分词通过分析大量的文本数据,归纳出词语的出现频率、共现概率等统计信息,作为判断词语边界的依据。
B: 以构词规则为出发点
这更接近法则式分词法的特点。法则式分词法依赖于预先定义的语言学规则和词典,按照这些规则来进行分词。
C: 主要有全切分以及FMM/BMM方法
全切分、正向最大匹配(FMM)和逆向最大匹配(BMM)方法是法则式分词法的典型方法,而不是统计式分词法。
D: 能非常好地处理新词以及新词带来的歧义问题
统计式分词法在处理新词和歧义问题上有一定的优势,但不能说“非常好”。新词的处理仍然依赖于语料库的覆盖范围和统计模型的训练效果。对于一些未在语料库中出现的新词,统计式分词法也可能会出现问题。
因此,正确答案是A。