考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在聚类(Clustering)的问题中,若数据字段属性都是二元属性(Binary Variable),根据下表,下列何者是Jaccard Coefficient计算数据间距离的公式?
A. d(i,j)=r + s/q + r + s
B. d(i,j)=r + s/r + s + t
C. d(i,j)=r + s/r + s + t
D. d(i,j)=r + s/r + s + t
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

无解析

在聚类问题中,Jaccard系数(Jaccard Coefficient)是一种常用的相似性度量方法,特别适用于二元属性数据。Jaccard系数的计算公式是:

\[ J(A, B) = \frac{|A \cap B|}{|A \cup B|} \]

其中,\( |A \cap B| \) 表示两个集合的交集的大小,\( |A \cup B| \) 表示两个集合的并集的大小。

对于二元属性数据,我们可以将其表示为一个二进制向量。假设有两个二进制向量 \( i \) 和 \( j \),我们可以定义如下变量:
- \( q \):同时为1的元素个数(即 \( i \) 和 \( j \) 都为1的次数)
- \( r \):一个为1,另一个为0的元素个数
- \( s \):一个为0,另一个为1的元素个数
- \( t \):同时为0的元素个数

Jaccard系数的公式可以改写为:

\[ J(i, j) = \frac{q}{q + r + s} \]

Jaccard距离(Jaccard Distance)是基于Jaccard系数的距离度量,定义为:

\[ d(i, j) = 1 - J(i, j) = 1 - \frac{q}{q + r + s} = \frac{r + s}{q + r + s} \]

根据以上分析,选项中符合Jaccard距离公式的是:

\[ \text{B: } d(i,j) = \frac{r + s}{q + r + s} \]

因此,正确答案是 **B**。