考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果要对该数据集使用mahout进行文本分类,错误的做法是( )(多选)
A. 直接使用mahout算法,在namenode机器的本地文件系统中调用这18828个文件
B. 将这18828个文件上传到hdfs上,然后使用mahout算法分析
C. 使用mahout提供的seqdirectory命令将18828个文件序列化成一个大文件上传到hdfs上,然后使用mahout算法分析
D. 将这18828个文件rar压缩软件将其压缩成一个大文件上传到hdfs上,然后使用mahout算法分析
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在使用 Mahout 进行文本分类时,尤其是在处理 20Newsgroups 这样的数据集时,以下是对选项的分析:

- **A: 直接使用mahout算法,在namenode机器的本地文件系统中调用这18828个文件。**

**分析**:Mahout 是基于 Hadoop 的分布式计算框架设计的,通常在 HDFS(Hadoop Distributed File System)上操作,而不是直接使用本地文件系统。因此直接在本地文件系统操作会无法利用 Hadoop 的分布式计算优势,是不推荐的做法。

- **B: 将这18828个文件上传到hdfs上,然后使用mahout算法分析。**

**分析**:这是一种常见的做法。将数据上传到 HDFS 是为了利用 Hadoop 的分布式计算能力。然后可以对这些数据使用 Mahout 的算法进行分析,是正确的做法。

- **C: 使用mahout提供的seqdirectory命令将18828个文件序列化成一个大文件上传到hdfs上,然后使用mahout算法分析。**

**分析**:使用 `seqdirectory` 命令是 Mahout 常用的步骤之一,用于将许多小文件序列化成序列文件,这样可以提高处理效率。这是一个推荐的做法,利用了 Hadoop 的优势。

- **D: 将这18828个文件用rar压缩软件将其压缩成一个大文件上传到hdfs上,然后使用mahout算法分析。**

**分析**:使用 rar 压缩工具将文件压缩,并不是在 Hadoop 环境中处理数据的标准做法。Hadoop 和 Mahout 期望输入是可以直接读取和处理的格式,而不是压缩文件格式。因此这会增加处理步骤,不是推荐的做法。

**正确答案**:A 和 D 是错误的做法。

### 专业分析总结:

- **A**的问题在于未使用分布式系统的设计理念。
- **D**的问题在于文件格式处理不当,增加了解压缩步骤,没有利用适合 Hadoop 的数据格式。
- **B**和**C**是利用 Hadoop 和 Mahout 的优势设计的合理流程。