Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?

Tenga en cuenta que [math] \ {0,1 \} ^ p [/ math] es un espacio vectorial sobre un campo binario. Entonces, todas las normas son igualmente válidas en este espacio. No hay razón para elegir una medida de distancia sobre la otra. Sin embargo, una vez dicho esto, hay casos en que las cosas pueden salir mal, especialmente cuando sus datos no van a abarcar todo el espacio. Esto sucede con los documentos web, por ejemplo. Un documento web representado como un vector booleano de palabras se encuentra en [math] \ {0,1 \} ^ p [/ math]. Sin embargo, todos estos vectores son muy escasos. Y para la mayoría de ellos, su producto punto entre sí será cero. Esto puede ser problemático [1].

Para evitar tal situación, los profesionales del aprendizaje automático generalmente usan un conjunto muy específico de medida de distancia que encontraron que funcionaba en muchos escenarios prácticos. Estos son:
1] Índice Jaccard
2] Sørensen – Coeficiente de dados
3] correlación
4] Distancia Yule
5] Russell-Rao
6] Sokal-Michener
7] Rogers-Tanimoto
8] Kulzinsky
9] distancia de Hamming

Puede obtener las funciones de distancia reales (excepto el hamming) de este documento [2]. Para la distancia de hamming, puede consultar el artículo de Wikipedia vinculado. Aunque me refiero a estas medidas como medidas de distancia, no todas son “Métricas (matemáticas)”. Por lo tanto, debe tener cuidado al usar estas distancias en su algoritmo y especialmente si planea analizar teóricamente cualquier resultado.

[1] En esta publicación de stackexchange (http://stats.stackexchange.com/q…), identifico una situación en la que la norma 2 puede dar un resultado sin sentido para la agrupación de k-means.
[2] http://www.cedar.buffalo.edu/pap…

Jaccard o Hamming funcionan bien en la práctica, particularmente en grandes dimensiones. La distancia coseno es otra buena métrica de coincidencia para espacios binarios. Por lo general, son los implementados en problemas de coincidencia y motores de recomendación, donde los datos faltantes y la alta dimensionalidad son comunes.