Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?

Tenga en cuenta que [math] \ {0,1 \} ^ p [/ math] es un espacio vectorial sobre un campo binario. Entonces, todas las normas son igualmente válidas en este espacio. No hay razón para elegir una medida de distancia sobre la otra. Sin embargo, una vez dicho esto, hay casos en que las cosas pueden salir mal, especialmente cuando sus datos no van a abarcar todo el espacio. Esto sucede con los documentos web, por ejemplo. Un documento web representado como un vector booleano de palabras se encuentra en [math] \ {0,1 \} ^ p [/ math]. Sin embargo, todos estos vectores son muy escasos. Y para la mayoría de ellos, su producto punto entre sí será cero. Esto puede ser problemático [1].

Para evitar tal situación, los profesionales del aprendizaje automático generalmente usan un conjunto muy específico de medida de distancia que encontraron que funcionaba en muchos escenarios prácticos. Estos son:
1] Índice Jaccard
2] Sørensen – Coeficiente de dados
3] correlación
4] Distancia Yule
5] Russell-Rao
6] Sokal-Michener
7] Rogers-Tanimoto
8] Kulzinsky
9] distancia de Hamming

Puede obtener las funciones de distancia reales (excepto el hamming) de este documento [2]. Para la distancia de hamming, puede consultar el artículo de Wikipedia vinculado. Aunque me refiero a estas medidas como medidas de distancia, no todas son “Métricas (matemáticas)”. Por lo tanto, debe tener cuidado al usar estas distancias en su algoritmo y especialmente si planea analizar teóricamente cualquier resultado.

[1] En esta publicación de stackexchange (http://stats.stackexchange.com/q…), identifico una situación en la que la norma 2 puede dar un resultado sin sentido para la agrupación de k-means.
[2] http://www.cedar.buffalo.edu/pap…

Análisis deAnálisis de conglomeradosAprendizaje automáticodatosMinería de datos

Related Content

¿Las PGM son esenciales para el aprendizaje profundo?

¿Por qué debería usar TensorFlow sobre NumPy o scikit-learn para construir redes neuronales (excepto para CPU o GPU)?

Yoshua Bengio: ¿Cómo funcionan los modelos de lenguaje neural?

¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

¿Cómo deberías comenzar una carrera en Machine Learning?

¿Cómo se puede garantizar la privacidad de los datos, como las imágenes guardadas en el Gmail de uno o los archivos almacenados en una infraestructura basada en la nube, a la luz del escándalo NSA PRISM y demás?

¿Cómo una red neuronal artificial calcula su salida?

Jaccard o Hamming funcionan bien en la práctica, particularmente en grandes dimensiones. La distancia coseno es otra buena métrica de coincidencia para espacios binarios. Por lo general, son los implementados en problemas de coincidencia y motores de recomendación, donde los datos faltantes y la alta dimensionalidad son comunes.

Colleen Farrelly

More Interesting

¿Cree en los resultados producidos por el análisis de control metabólico (modelado matemático utilizando parámetros cinéticos)?

¿Cómo funciona la función predict () en R?

Dado que los modelos pueden ser entrenados en datos sintéticos, ¿podemos usar el Entrenamiento Adversario para hacer que las imágenes de prueba sean más sintéticas?

¿Dónde es importante la doble precisión en el aprendizaje profundo?

¿Qué especificaciones de computadora se recomiendan para entrenar redes neuronales?

¿Cuál es una buena manera de entender la pérdida de Minkowski con una configuración diferente?

¿Qué es la curva de recuperación de precisión (PR)?

Cómo construir un sistema de recomendación de itinerario basado en las preferencias del usuario

¿Qué tan importante fue el Premio Netflix para el área de Sistemas de recomendación?

¿Cómo es el estado de ML en Palantir?

¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?

¿El aprendizaje automático es un tema torpe?

¿Qué opinas de la biblioteca de aprendizaje profundo de código abierto de Amazon 'DSSTNE' (pronunciado Destiny)?

¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con él?

¿Cuál es el libro recomendado sobre 'plasticidad neuronal' para informáticos, programadores o profesionales de aprendizaje profundo?

Web Analytics