考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

以下对Spark中RDD叙述错误的是( )(多选)
A. RDD是可读、写的
B. RDD是基于内存的高度首先的数据共享模型
C. RDD是基于磁盘的高度首先的数据共享模型
D. RDD之间的依赖关系分为宽依赖与窄依赖
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在分析哪些选项是错误的之前,让我们逐个分析每个选项:

A: RDD是可读、写的
错误。RDD(Resilient Distributed Dataset)是一个只读的数据集,不能直接修改。每次对RDD进行操作时,都会生成一个新的RDD。

B: RDD是基于内存的高度首先的数据共享模型
部分正确。RDD主要是基于内存的,它通过内存中的数据集来实现高效的数据处理,但它并不是一个“数据共享模型”。RDD的设计是为了容错和高效的计算,而不是为了数据共享。

C: RDD是基于磁盘的高度首先的数据共享模型
错误。RDD主要是基于内存的,虽然它可以在内存不足时将数据溢出到磁盘,但它的设计并不是基于磁盘的。它的主要目标是提供高效的内存计算,而不是作为一个数据共享模型。

D: RDD之间的依赖关系分为宽依赖与窄依赖
正确。RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指的是每个父RDD的分区最多被子RDD的一个分区使用,而宽依赖指的是父RDD的分区可能会被多个子RDD的分区使用。

综上所述,错误的选项是 A 和 C。