考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在中文的自然语言处理工作中,以下属于建立关键词的程序是?
A. 读取文献
B. 分词
C. 利用 Suffix String 将 Word 重整至最基本字型
D. 计算每个Word的IDF
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

C是英文处理时需要的步骤,题干是中文,所以答案中不包括C,最终选ABD

正确答案是:B: 分词

专业分析:
在中文的自然语言处理(NLP)工作中,建立关键词的程序通常包括以下几个步骤:

1. **读取文献**:这是处理文本的初始步骤,读取文献是为了获取文本数据,但它本身并不涉及关键词的建立。

2. **分词**:中文文本处理中的一个关键步骤,因为中文文本没有天然的词间空格。分词是将连续的汉字序列切分成一个个有意义的词语。只有在分词之后,才能进一步分析和提取关键词。因此,分词是建立关键词的基础步骤之一。

3. **利用 Suffix String 将 Word 重整至最基本字型**:这通常不是中文NLP中的常见步骤,可能是指某些特定的语言处理任务,如词形还原(Lemmatization)或词干提取(Stemming),但在中文中应用较少。

4. **计算每个Word的IDF**:IDF(逆文档频率)是用来衡量一个词在整个语料库中的重要性,它通常用于TF-IDF算法中来提取关键词。然而,计算IDF是建立关键词的后续步骤,需要在已经完成分词和词频统计的基础上进行。

综上所述,分词是建立关键词的基础步骤,因此正确答案是B。