考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下面哪个操作是窄依赖( )
A. join
B. filter
C. group
D. sort
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在分布式计算框架中,特别是像 Apache Spark 这样的框架中,依赖关系通常分为窄依赖(narrow dependency)和宽依赖(wide dependency)。理解这两者的区别对于优化和理解作业的执行非常重要。

- **窄依赖(Narrow Dependency)**:每个父分区最多被一个子分区使用。换句话说,一个父分区的数据只会被一个子分区读取。这种依赖关系使得数据的传输和处理更加高效,因为可以在单个节点上完成,不需要跨节点的数据传输。

- **宽依赖(Wide Dependency)**:一个父分区的数据会被多个子分区使用。这种依赖关系通常需要跨节点的数据传输,涉及到数据的洗牌(shuffle),因此通常比窄依赖更昂贵。

分析选项:

A. **Join**:通常是宽依赖,因为需要将数据重新分配到不同的分区,以便进行连接操作。

B. **Filter**:是窄依赖,因为过滤操作只需在每个分区内进行,不需要跨分区的数据传输。

C. **Group**:通常是宽依赖,因为需要对数据进行分组,这通常涉及到数据的重新分配和洗牌。

D. **Sort**:通常是宽依赖,因为排序需要对数据进行全局排序,涉及到跨分区的数据传输。

因此,正确答案是 **B: filter**,因为它是窄依赖操作。过滤操作仅在每个分区内进行,不需要跨分区的数据传输。