正确答案是 C: 1 和 3。
### 专业分析:
单词归一化是自然语言处理(NLP)中的一个重要步骤,其目的是将单词还原到其基本形式。以下是选项中提到的不同技术:
1. **词形还原(Lemmatization)**:
- **定义**:词形还原是将一个单词转换为其词典中的基本形式或词元。这涉及词汇和形态分析,以确保还原后的单词是一个真实的词。
- **示例**:将“running”还原为“run”。
- **应用**:通过查阅词典和语言形态规则来实现归一化,是一种更复杂和准确的方法。
2. **Levenshtein**:
- **定义**:Levenshtein距离是用于测量两个字符串之间相似度的度量方法,通过计算最少的编辑操作(插入、删除、替换)来达到从一个字符串转化到另一个字符串。
- **应用**:通常用于拼写检查、DNA序列比对等,不直接用于词形归一化。
3. **词干提取(Stemming)**:
- **定义**:词干提取通过去掉单词的词缀(如词尾)来提取单词的词干或根。这通常是通过简单的规则完成的,不一定产生真实词。
- **示例**:将“running”转换为“runn”。
- **应用**:效率高但精度可能不如词形还原。
4. **探测法(Soundex)**:
- **定义**:Soundex是一种用于将美国英语单词编码为语音的算法,目的是根据发音来识别相似的名字或单词。
- **应用**:主要用于音近词匹配,不用于单词归一化。
综上所述,单词归一化主要涉及词形还原和词干提取,因此选择 C: 1 和 3 是正确的。