Spark RDD数据分析常见误区-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

以下对Spark中RDD叙述错误的是（）（多选）

A. RDD是可读、写的

B. RDD是基于内存的高度首先的数据共享模型

C. RDD是基于磁盘的高度首先的数据共享模型

D. RDD之间的依赖关系分为宽依赖与窄依赖

上一题

下一题

题目解析

题目评论(0)

在分析哪些选项是错误的之前，让我们逐个分析每个选项：

A: RDD是可读、写的
错误。RDD（Resilient Distributed Dataset）是一个只读的数据集，不能直接修改。每次对RDD进行操作时，都会生成一个新的RDD。

B: RDD是基于内存的高度首先的数据共享模型
部分正确。RDD主要是基于内存的，它通过内存中的数据集来实现高效的数据处理，但它并不是一个“数据共享模型”。RDD的设计是为了容错和高效的计算，而不是为了数据共享。

C: RDD是基于磁盘的高度首先的数据共享模型
错误。RDD主要是基于内存的，虽然它可以在内存不足时将数据溢出到磁盘，但它的设计并不是基于磁盘的。它的主要目标是提供高效的内存计算，而不是作为一个数据共享模型。

D: RDD之间的依赖关系分为宽依赖与窄依赖
正确。RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指的是每个父RDD的分区最多被子RDD的一个分区使用，而宽依赖指的是父RDD的分区可能会被多个子RDD的分区使用。

综上所述，错误的选项是 A 和 C。