Spark RDD依赖机制详解-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

Spark RDD的依赖机制包括？

A. 宽窄依赖

B. 广度依赖

C. 深度依赖

D. 以上都是

上一题

下一题

题目解析

题目评论(0)

在Spark中，RDD（弹性分布式数据集）的依赖机制主要包括两种类型：宽依赖（Wide Dependency）和窄依赖（Narrow Dependency）。因此，正确答案是A: 宽窄依赖。

### 专业分析：

1. **窄依赖（Narrow Dependency）**：
- 在窄依赖中，每个父RDD的分区最多被子RDD的一个分区使用。这意味着数据的转换操作是相对简单的，例如map、filter等操作。
- 由于数据的分区之间没有重叠，窄依赖可以在不需要全局数据重组的情况下进行计算，因此可以高效地进行pipeline执行。
- 失败时，窄依赖的恢复代价较低，因为只需要重新计算丢失的分区。

2. **宽依赖（Wide Dependency）**：
- 在宽依赖中，父RDD的一个分区可能会被子RDD的多个分区使用。这通常涉及需要数据重组的操作，例如groupByKey、reduceByKey、join等。
- 宽依赖会导致数据需要在节点之间进行shuffle，这是一种代价高昂的操作，因为它涉及网络I/O。
- 由于shuffle的存在，宽依赖的容错和恢复比窄依赖复杂，因为需要重新进行数据的shuffle。

### 结论：
Spark的RDD依赖机制主要是通过宽窄依赖来管理数据分区之间的关系，这直接影响到作业的执行效率和容错机制。因此，选项A: 宽窄依赖是正确的。选项B和C（广度依赖、深度依赖）并不是Spark中实际存在的概念。