¿Cuáles son las ventajas de la distancia euclidiana y la distancia coseno, respectivamente?

La mayoría de las distancias, utilizadas en la agrupación, son funciones de compresión unidireccionales. Podemos calcular únicamente la distancia entre dos vectores, pero no podemos restaurar ni siquiera los valores aproximados de las entradas. Por lo tanto, podemos obtener la distancia “grande” entre vectores, que “es muy similar en todos los atributos, excepto uno, muy diferente” y vectores, con una diferencia promedio para cada atributo. Pero desde el punto de vista del área temática, en el primer caso podemos hablar de similitud de objetos, y en el segundo caso, no. Además, cuando analiza datos grandes (especialmente con cientos de atributos), comprenderá rápidamente la desventaja de la distancia euclidiana. La distancia entre 2 puntos cercanos de un grupo es la misma que entre 2 puntos remotos de diferentes grupos dentro del error estándar. Este es un aspecto de la “maldición de la dimensionalidad”. Por lo tanto, se recomienda la distancia cosenoidal en caso de grandes datos como menor de dos males.

Creo que el avance en la nueva generación de algoritmos de agrupación comenzará con el reemplazo de las mediciones tradicionales por otras compuestas de lógica difusa como “estos dos vectores están extremadamente cerca de la lista de atributos 1, cerca de la lista de atributos 2 … lejos de la lista de atributos N” .

Related Content

¿Debo ir por TensorFlow o PyTorch?

¿Es posible usar datos sintéticos (no de la vida real) en un modelo de aprendizaje automático?

¿Qué piensa Pedro Domingos de la investigación de aprendizaje automático que está ocurriendo en la industria versus la academia?

¿Qué es la mente profunda de Google?

¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?

¿Alguien ha intentado sitios web de IA que se diseñen ellos mismos? ¿Cuál es la diferencia entre los sitios web creados por humanos y por IA?

¿Cómo nombraría una pieza de tecnología completamente nueva (hardware / portátil)?

Un vector representa la distancia y la dirección. La similitud de coseno entre dos vectores, con origen como referencia, indica qué tan cerca los dos vectores apuntan en la misma dirección.
P.ej. Para determinar el sentimiento de dos artículos de noticias, ya sea positivo o negativo, sería útil utilizar la similitud de coseno, si su sentimiento tiende a un lado o no.

Mientras que la distancia euclidiana representa la distancia entre dos puntos. Por lo tanto, representa la distancia física entre dos puntos.
P.ej. Mientras se realiza la agrupación de K-medias, la métrica utilizada es la distancia euclidiana, ya que los puntos pueden estar en direcciones opuestas pero pueden caer en el mismo grupo, si la distancia de ambos puntos desde el centroide es la misma.

Anatol Gaina

More Interesting

¿De qué manera es una 'Máquina de Turing Neural Lie Access' superior a las NTM normales?

Estoy creando una plataforma de transmisión en vivo: ¿cómo puedo conectarme y usar varias cámaras web al mismo tiempo?

Cómo obtener una posición de RA en el Grupo de Aprendizaje Automático de Microsoft Research India

¿Debo usar Python o Scala para construir un sistema de aprendizaje automático para mi aplicación?

¿Cuál es una variedad de problemas y problemas que pueden resolverse mediante la minería de datos y el aprendizaje automático? ¿Qué tipo de algoritmo se utiliza para qué tipo de problema?

¿AWS es bueno para ejecutar proyectos de aprendizaje profundo? ¿Qué tan rápido y costoso sería entrenar una red convolucional en aproximadamente 1 millón de imágenes?

¿Cómo puede una red neuronal convolucional aprender características invariables?

¿Hay algún sitio web donde pueda encontrar ideas para mi tesis de licenciatura en Informática? (Estoy interesado en algoritmos y aprendizaje automático).

¿Cuál es la solución del ejercicio 1.3 del libro Machine Learning de Tom M. Mitchell?

¿Cómo se aplica el aprendizaje profundo en la industria?

¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.

Cómo hacer clustering para datos categóricos

¿Puedo crear un conjunto de datos y luego usarlo para evaluar un algoritmo de clasificación?

¿Hay algún proyecto de aprendizaje automático de código abierto al que un principiante pueda contribuir?

¿Debo comenzar a aprender Python y el aprendizaje automático al mismo tiempo?

Web Analytics