计算机分词的研究,可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。- 法则式分词法:以构词规则为出发点的分词方式。eg: 全切分, FMM/BM:- 统计式分词法:利用语料库归纳出统计数据作为凭断标准的分词方式。eg: N-Gram概率模型 不能处理新词以及新词带来的歧义问题是统计式分词法的缺点。
正确答案是:A. 利用语料库归纳出统计数据作为凭断标准
### 专业分析:
**统计式分词法**是一种基于统计学原理的分词方法,主要依赖大规模的语料库,通过对语料库中的词语进行统计分析,获取词语的频率、共现概率等统计数据,然后利用这些数据进行分词。
#### A. 利用语料库归纳出统计数据作为凭断标准
这是统计式分词法的核心思想。通过大规模语料库的统计分析,获取词语的频率、共现概率等数据,并据此判断词语的边界和分词结果。因此,A选项是正确的。
#### B. 以构词规则为出发点
这是法则式分词法的特点,法则式分词法主要依赖预定义的词典和语言学规则进行分词,而不是统计数据。因此,B选项不适用于统计式分词法。
#### C. 主要有全切分以及FMM/BMM方法
全切分、FMM(正向最大匹配法)和BMM(逆向最大匹配法)是法则式分词法中常用的方法,而不是统计式分词法的主要方法。因此,C选项不正确。
#### D. 能非常好地处理新词以及新词带来的歧义问题
虽然统计式分词法在处理新词和歧义方面有一定优势,但并不能“非常好”地解决这些问题。新词和歧义的处理在统计式分词法中仍然是一个难点,需要结合其他方法进行优化。因此,D选项不完全正确。
综上所述,A选项是关于统计式分词法的正确描述。