L'indice di Jaccard, noto anche come coefficiente di similarità di Jaccard (originariamente denominato coefficient de communauté da Paul Jaccard), è un indice statistico utilizzato per confrontare la similarità e la diversità di insiemi campionari.
Il coefficiente di Jaccard misura la similarità tra insiemi campionari, ed è definito come la dimensione dell'intersezione divisa per la dimensione dell'unione degli insiemi campionari:
La distanza di Jaccard, che misura la dissimilarità tra insiemi campionari, è complementare al coefficiente di Jaccard e si ottiene sottraendo il coefficiente di Jaccard da 1, o, in modo equivalente, dividendo la differenza delle dimensioni dell'unione e dell'intersezione di due insiemi per la dimensione dell'unione:
Questa distanza è propriamente una metrica[1].
Similarità degli attributi binari asimmetrici
Dati due oggetti, A e B, ciascuno con n attributi binari, l'indice di Jaccard è un'utile misura della sovrapposizione che A e B condividono con i loro attributi.
Ogni attributo di A e B può essere 0 oppure 1. Il numero totale di ogni combinazione di attributi sia per A che per B è specificato come segue:
- rappresenta il numero totale di attributi dove A e B hanno entrambi valore 1.
- rappresenta il numero totale di attributi dove l'attributo di A è 0 e l'attributo di B è 1.
- rappresenta il numero totale di attributi dove l'attributo di A è 1 e l'attributo di B è 0.
- rappresenta il numero totale di attributi dove A e B hanno entrambi valore 0.
Ogni attributo deve ricadere in una di queste quattro categorie, il che significa che:
Il coefficiente di similarità di Jaccard, J, è dato da
La distanza di Jaccard, J', è data invece da
Coefficiente di Tanimoto (coefficiente esteso di Jaccard)
Il coseno di similitudine è una misura di similarità tra due vettori di n dimensioni trovando l'angolo tra di essi, utilizzato spesso per confrontare i documenti nel text mining. Dati due vettori di attributi, A e B, il coseno di similitudine, cos(θ), si rappresenta usando un prodotto scalare e una magnitudine come
Per la corrispondenza tra i testi, i vettori attributo A e B sono di solito i vettori tf-idf dei documenti.
Poiché l'angolo θ è nell'intervallo di [0, π], la similarità risultante produrrà il valore di −1 che significa esattamente opposto, 0 che significa indipendente, +1 che significa esattamente lo stesso, con i valori intermedi che indicano similarità o dissimilarità intermedie.
Questa metrica del coseno di similitudine può essere estesa in modo tale da produrre il coefficiente di Jaccard nel caso di attributi binari. Si ottiene così il coefficiente di Tanimoto T(A, B), rappresentato da
Note
- ^ Alan H Lipkus, A proof of the triangle inequality for the Tanimoto distance, in J Math Chem, vol. 26, n. 1-3, 1999, pp. 263–265.
Bibliografia
- Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7
- Paul Jaccard (1901) Étude comparative de la distribution florale dans une portion des Alpes et des Jura. Bulletin de la Société Vaudoise des Sciences Naturelles 37, 547–579.
- Tanimoto, T.T. (1957) IBM Internal Report 17th Nov. 1957.
Voci correlate
Collegamenti esterni