¿Qué es el Tanimoto Score y cuándo se usa?

La puntuación de Tanimoto se puede usar para comparar vectores que tienen atributos binarios. Por ejemplo, puede usarlo como parte de algunos tipos de sistemas de recomendación de ítems; aparentemente es la métrica más común en quimioinformática para comparar moléculas, pero alguien más puede intervenir en eso.

Como técnica de filtrado colaborativo, es bastante sencillo y funciona bien con datos binarios. Supongamos que tiene usuarios U y temas T, cada usuario sigue (1) o no (0) un tema, luego tiene vectores T de 1s y 0s que representan a cada usuario siguiendo la preferencia de ese tema. Puede comparar dos vectores T, ti y tj, utilizando Tanimoto calculando (ti intersect tj) / (ti union tj). Lo que daría un número entre 0 y 1 que representa la frecuencia con la que los usuarios siguen ambos temas y, por lo tanto, cuán “similares” son.

Apache Mahout http://mahout.apache.org/, implementa la similitud de tanimoto y otras útiles para CF de datos binarios (similitud de coseno, probabilidad de registro).

Machine Learning

Related Content

¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?

¿Cómo podemos hacer una buena predicción usando el aprendizaje profundo MXNet R?

¿Cuál es el mejor software para implementar algoritmos de aprendizaje automático / minería de datos a gran escala?

¿Qué piensa Vijay Balasubramaniyan del aprendizaje automático Adversarial?

¿Cuál es mejor, el modelo de regresión o ecuación estructural, y por qué?

¿Cómo se pueden usar Hadoop y NoSQL para procesar grandes conjuntos de datos en Java?

Procesamiento de lenguaje natural: ¿Cuál es la mejor manera de detectar si un fragmento de texto es interrogativo?

More Interesting

Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?

¿Cuáles son las ventajas de la regresión logística?

¿Cómo se diseñan las redes neuronales artificiales y qué teoremas académicos las respaldan?

¿Cuáles son los roles de probabilidad y estadística en el aprendizaje automático? ¿Qué tan importantes son? ¿Cuáles son sus aplicaciones en el aprendizaje automático?

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Cómo se usa el cálculo vectorial en el aprendizaje automático?

¿Cuál es la diferencia entre CNN y RNN?

¿Puede Naive Bayes alcanzar algún rendimiento con suficientes datos?

¿Debo aprender modelado e iluminación después de dominar el modelado en Blender?

¿Cómo se eligieron las palabras sesgo y varianza (Machine Learning)?

¿Cuáles son los grandes problemas de investigación en el reconocimiento de voz hoy?

¿Cómo decidimos entre usar la factorización a priori o matriz para el filtrado colaborativo?

Cómo entrenar un clasificador SVM a partir de ejemplos de texto

¿Puedo usar videos de YouTube para hacer aprendizaje automático comercial?

Cómo dominar el aprendizaje automático en el menor tiempo posible

Web Analytics