在分析哪些选项是错误的之前,让我们逐个分析每个选项:
A: RDD是可读、写的
错误。RDD(Resilient Distributed Dataset)是一个只读的数据集,不能直接修改。每次对RDD进行操作时,都会生成一个新的RDD。
B: RDD是基于内存的高度首先的数据共享模型
部分正确。RDD主要是基于内存的,它通过内存中的数据集来实现高效的数据处理,但它并不是一个“数据共享模型”。RDD的设计是为了容错和高效的计算,而不是为了数据共享。
C: RDD是基于磁盘的高度首先的数据共享模型
错误。RDD主要是基于内存的,虽然它可以在内存不足时将数据溢出到磁盘,但它的设计并不是基于磁盘的。它的主要目标是提供高效的内存计算,而不是作为一个数据共享模型。
D: RDD之间的依赖关系分为宽依赖与窄依赖
正确。RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指的是每个父RDD的分区最多被子RDD的一个分区使用,而宽依赖指的是父RDD的分区可能会被多个子RDD的分区使用。
综上所述,错误的选项是 A 和 C。