C是英文处理时需要的步骤,题干是中文,所以答案中不包括C,最终选ABD
正确答案是:B: 分词
专业分析:
在中文的自然语言处理(NLP)工作中,建立关键词的程序通常包括以下几个步骤:
1. **读取文献**:这是处理文本的初始步骤,读取文献是为了获取文本数据,但它本身并不涉及关键词的建立。
2. **分词**:中文文本处理中的一个关键步骤,因为中文文本没有天然的词间空格。分词是将连续的汉字序列切分成一个个有意义的词语。只有在分词之后,才能进一步分析和提取关键词。因此,分词是建立关键词的基础步骤之一。
3. **利用 Suffix String 将 Word 重整至最基本字型**:这通常不是中文NLP中的常见步骤,可能是指某些特定的语言处理任务,如词形还原(Lemmatization)或词干提取(Stemming),但在中文中应用较少。
4. **计算每个Word的IDF**:IDF(逆文档频率)是用来衡量一个词在整个语料库中的重要性,它通常用于TF-IDF算法中来提取关键词。然而,计算IDF是建立关键词的后续步骤,需要在已经完成分词和词频统计的基础上进行。
综上所述,分词是建立关键词的基础步骤,因此正确答案是B。