¿Qué es el Tanimoto Score y cuándo se usa?

La puntuación de Tanimoto se puede usar para comparar vectores que tienen atributos binarios. Por ejemplo, puede usarlo como parte de algunos tipos de sistemas de recomendación de ítems; aparentemente es la métrica más común en quimioinformática para comparar moléculas, pero alguien más puede intervenir en eso.

Como técnica de filtrado colaborativo, es bastante sencillo y funciona bien con datos binarios. Supongamos que tiene usuarios U y temas T, cada usuario sigue (1) o no (0) un tema, luego tiene vectores T de 1s y 0s que representan a cada usuario siguiendo la preferencia de ese tema. Puede comparar dos vectores T, ti y tj, utilizando Tanimoto calculando (ti intersect tj) / (ti union tj). Lo que daría un número entre 0 y 1 que representa la frecuencia con la que los usuarios siguen ambos temas y, por lo tanto, cuán “similares” son.

Apache Mahout http://mahout.apache.org/, implementa la similitud de tanimoto y otras útiles para CF de datos binarios (similitud de coseno, probabilidad de registro).