La mayoría de las distancias, utilizadas en la agrupación, son funciones de compresión unidireccionales. Podemos calcular únicamente la distancia entre dos vectores, pero no podemos restaurar ni siquiera los valores aproximados de las entradas. Por lo tanto, podemos obtener la distancia “grande” entre vectores, que “es muy similar en todos los atributos, excepto uno, muy diferente” y vectores, con una diferencia promedio para cada atributo. Pero desde el punto de vista del área temática, en el primer caso podemos hablar de similitud de objetos, y en el segundo caso, no. Además, cuando analiza datos grandes (especialmente con cientos de atributos), comprenderá rápidamente la desventaja de la distancia euclidiana. La distancia entre 2 puntos cercanos de un grupo es la misma que entre 2 puntos remotos de diferentes grupos dentro del error estándar. Este es un aspecto de la “maldición de la dimensionalidad”. Por lo tanto, se recomienda la distancia cosenoidal en caso de grandes datos como menor de dos males.
Creo que el avance en la nueva generación de algoritmos de agrupación comenzará con el reemplazo de las mediciones tradicionales por otras compuestas de lógica difusa como “estos dos vectores están extremadamente cerca de la lista de atributos 1, cerca de la lista de atributos 2 … lejos de la lista de atributos N” .
- ¿Qué utiliza la aspiradora robótica como recompensa si utilizan el aprendizaje por refuerzo como algoritmo?
- Procesamiento del lenguaje natural: ¿De qué maneras puedo probar el error de aplicar un modelo de tema a los tweets, dado que no hay un corpus conocido de etiquetas de temas?
- ¿Cuáles son los mejores cursos introductorios para el aprendizaje automático disponibles en Internet para principiantes?
- ¿Qué es la curva de recuperación de precisión (PR)?
- ¿Los HMM aún superan a los LSTM en pequeños conjuntos de datos?