Jaccard similarity 계산

패턴인식 & 기계학습 2015. 10. 2. 15:19

Jaccard Semilarity 계산


Jaccard Index는 Paul Jaccard이 제안한 유사성 계산 알고리즘이다.


기본적으로 Jaccard similarity measure방법은 두 데이터 집합의 교집합을 합집합으로 나눈것으로 정의한다.



  



Jaccard Distance는 1에서 Jaccard Similarity를 뺀값으로 계산하거나, 합집합에서 교집합을 뺀 크기를 


합집합의 크기로 나눈 것으로 계산할 수 있다.




Jaccard Distance의 값은 0~1사이의 값을 갖고 A와 B가 empty일 경우 1의 값을 갖는다.


보통 binary attributes의 similarity를 계산할때 많이 사용된다. (위키피디아 참조 - Jaccard_index)