在聚类问题中,Jaccard Coefficient(雅卡尔系数)常用于计算二元属性数据间的相似性。Jaccard Coefficient 主要用于衡量两个样本之间的相似度,特别适用于稀疏数据集。
对于二元属性的数据,假设两个样本 \(i\) 和 \(j\) 的二元属性分别表示为向量 \(A\) 和 \(B\),则有以下定义:
- \(q\) 表示 \(A\) 和 \(B\) 都为1的次数(即同时为1的属性数)
- \(r\) 表示 \(A\) 为1而 \(B\) 为0的次数
- \(s\) 表示 \(A\) 为0而 \(B\) 为1的次数
- \(t\) 表示 \(A\) 和 \(B\) 都为0的次数
Jaccard Coefficient 的计算公式是:
\[ J(A, B) = \frac{q}{q + r + s} \]
Jaccard 距离(Jaccard Distance)则是 Jaccard Coefficient 的补数:
\[ d(i, j) = 1 - J(A, B) = 1 - \frac{q}{q + r + s} = \frac{r + s}{q + r + s} \]
根据上述公式,正确答案是 B:
\[ d(i,j)=\frac{r + s}{r + s + t} \]