La puntuación de Tanimoto se puede usar para comparar vectores que tienen atributos binarios. Por ejemplo, puede usarlo como parte de algunos tipos de sistemas de recomendación de ítems; aparentemente es la métrica más común en quimioinformática para comparar moléculas, pero alguien más puede intervenir en eso.
Como técnica de filtrado colaborativo, es bastante sencillo y funciona bien con datos binarios. Supongamos que tiene usuarios U y temas T, cada usuario sigue (1) o no (0) un tema, luego tiene vectores T de 1s y 0s que representan a cada usuario siguiendo la preferencia de ese tema. Puede comparar dos vectores T, ti y tj, utilizando Tanimoto calculando (ti intersect tj) / (ti union tj). Lo que daría un número entre 0 y 1 que representa la frecuencia con la que los usuarios siguen ambos temas y, por lo tanto, cuán “similares” son.
Apache Mahout http://mahout.apache.org/, implementa la similitud de tanimoto y otras útiles para CF de datos binarios (similitud de coseno, probabilidad de registro).
- ¿Cómo puedo comenzar el trabajo de investigación sobre aprendizaje automático y cómo puedo elegir un tema o problema en el aprendizaje automático?
- ¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?
- ¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?
- Si una red de alimentación directa de una sola capa es capaz de aproximarse a cualquier grado de precisión, ¿por qué es exitoso el aprendizaje profundo?
- ¿Es C ++ un buen lenguaje para el aprendizaje automático?