考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在聚类(Clustering)的问题中,若数据字段属性都是二元属性(Binary Variable),根据下表,下列何者是Jaccard Coefficient计算数据间距离的公式?
A. d(i,j)=r + s/q + r + s
B. d(i,j)=r + s/r + s + t
C. d(i,j)=r + s/q + s + t
D. d(i,j) = r + s/ q + r + s + t
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在聚类问题中,Jaccard Coefficient(雅卡尔系数)常用于计算二元属性数据间的相似性。Jaccard Coefficient 主要用于衡量两个样本之间的相似度,特别适用于稀疏数据集。

对于二元属性的数据,假设两个样本 \(i\) 和 \(j\) 的二元属性分别表示为向量 \(A\) 和 \(B\),则有以下定义:

- \(q\) 表示 \(A\) 和 \(B\) 都为1的次数(即同时为1的属性数)
- \(r\) 表示 \(A\) 为1而 \(B\) 为0的次数
- \(s\) 表示 \(A\) 为0而 \(B\) 为1的次数
- \(t\) 表示 \(A\) 和 \(B\) 都为0的次数

Jaccard Coefficient 的计算公式是:

\[ J(A, B) = \frac{q}{q + r + s} \]

Jaccard 距离(Jaccard Distance)则是 Jaccard Coefficient 的补数:

\[ d(i, j) = 1 - J(A, B) = 1 - \frac{q}{q + r + s} = \frac{r + s}{q + r + s} \]

根据上述公式,正确答案是 B:

\[ d(i,j)=\frac{r + s}{r + s + t} \]