Tenga en cuenta que [math] \ {0,1 \} ^ p [/ math] es un espacio vectorial sobre un campo binario. Entonces, todas las normas son igualmente válidas en este espacio. No hay razón para elegir una medida de distancia sobre la otra. Sin embargo, una vez dicho esto, hay casos en que las cosas pueden salir mal, especialmente cuando sus datos no van a abarcar todo el espacio. Esto sucede con los documentos web, por ejemplo. Un documento web representado como un vector booleano de palabras se encuentra en [math] \ {0,1 \} ^ p [/ math]. Sin embargo, todos estos vectores son muy escasos. Y para la mayoría de ellos, su producto punto entre sí será cero. Esto puede ser problemático [1].
Para evitar tal situación, los profesionales del aprendizaje automático generalmente usan un conjunto muy específico de medida de distancia que encontraron que funcionaba en muchos escenarios prácticos. Estos son:
1] Índice Jaccard
2] Sørensen – Coeficiente de dados
3] correlación
4] Distancia Yule
5] Russell-Rao
6] Sokal-Michener
7] Rogers-Tanimoto
8] Kulzinsky
9] distancia de Hamming
Puede obtener las funciones de distancia reales (excepto el hamming) de este documento [2]. Para la distancia de hamming, puede consultar el artículo de Wikipedia vinculado. Aunque me refiero a estas medidas como medidas de distancia, no todas son “Métricas (matemáticas)”. Por lo tanto, debe tener cuidado al usar estas distancias en su algoritmo y especialmente si planea analizar teóricamente cualquier resultado.
- ¿Qué es el condicionamiento en el aprendizaje seq2seq?
- ¿Aprendizaje automático sin historia matemática?
- ¿Cuáles son algunos buenos proyectos en los que un principiante de aprendizaje automático puede trabajar?
- ANNs: ¿Cómo usan las redes convolucionales el 'compartir peso'?
- Cómo entrenar un clasificador SVM a partir de ejemplos de texto
[1] En esta publicación de stackexchange (http://stats.stackexchange.com/q…), identifico una situación en la que la norma 2 puede dar un resultado sin sentido para la agrupación de k-means.
[2] http://www.cedar.buffalo.edu/pap…