¿Cómo aplicamos el algoritmo de agrupamiento k-means para datos mixtos numéricos y categóricos?

K-means no se puede usar directamente para datos con valores numéricos y categóricos debido a la función de costo que utiliza. K-means utiliza la distancia euclidiana, que no está definida para datos categóricos. Por lo tanto, para usar el tipo K-means o el algoritmo de agrupamiento particional en datos mixtos, debe cambiar la función de costo para que pueda capturar la distancia o la similitud entre ambos tipos de datos.

Huang desarrolló un método simple en el que la distancia euclidiana se usa para encontrar similitudes entre los datos numéricos y la distancia de Hamming para la similitud entre los datos categóricos y los combina a ambos junto con algunos pesos como una función de costo para manejar datos mixtos. El documento está aquí http://grid.cs.gsu.edu/~wkim/ind…

Debería leer este artículo más reciente y altamente citado sobre la agrupación de datos mixtos utilizando el algoritmo de tipo k-means http://edu.cs.uni-magdeburg.de/E…

¿Cuál es una metodología sólida para abordar un problema de regresión?

¿Dónde está el mejor lugar para encontrar startups emergentes de aprendizaje automático y PNL?

¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

¿Qué componentes de hardware (CPU, RAM, GC, etc.) se necesitan para que una PC / computadora doméstica de aprendizaje automático / aprendizaje profundo funcione rápidamente?

¿Qué algoritmos de aprendizaje automático no requieren escalado de características?

¿El submuestreo de un entrenamiento desequilibrado es una buena idea cuando los datos del mundo real, usaré mi clasificador, también estarán desequilibrados?

El problema de los datos categóricos es que son discretos y no se pueden interpolar de manera sensata.

Por ejemplo, el cuarzo mineral puede ser {transparente, blanco, rosa, rojo, amarillo, marrón, negro, morado} (conjunto categórico)

Este conjunto discreto podría establecerse de manera continua, pero reflejaría una base arbitraria y, por lo tanto, no puede utilizarse. ¿Cómo puede calcular la distancia entre una muestra rosa y una amarilla y aún así tener sentido de la distancia entre una muestra clara y negra? No tiene sentido, también sugiere que categorías como esta deberían excluirse. Y sin embargo, todos pertenecen a la misma clase “cuarzo mineral”. En esta y tal vez en otras situaciones, deje que los otros atributos dominen (siempre que sean independientes) (use el análisis de componentes principales, que le proporciona un conjunto base, es decir, un conjunto independiente)

Y luego use los atributos categóricos para subdividir aún más la clase.

{cristal de roca, lechoso, rosa, citrino (o ferruginoso), cairngorm, morion, amatista} Cuarzo

(evitando rutilado; criptocristalino – calcedonia, ópalo; especiales cristobolito y tridimita}

Si el atributo categórico es definitivo, por ejemplo, número de tramos, divide sus datos en ese número de clases (uno para cada número), entonces K-significa cada conjunto.

También tenga en cuenta que grandes conjuntos multidimensionales de atributos, el rango puede dominar la importancia, por lo que una distancia medir tales cosenos de dirección (ver T Kohonen, Autoorganización y memoria asociativa (Springer Verlag) Página 60)) puede ser una mejor opción que Euclidiana,

Shehroz Khan

La respuesta a esta pregunta tiene un par de sugerencias sobre cómo hacer que el agrupamiento de k-means funcione en una mezcla de datos (numérico y categórico) ¿Por qué el agrupamiento de K-means funciona mal en datos categóricos? La debilidad del método K-means es que es aplicable solo cuando se define la media, uno necesita especificar K por adelantado y no puede manejar datos ruidosos y valores atípicos.

Shehroz Khan

More Interesting

Cómo comenzar a aprender sobre redes neuronales y conceptos de aprendizaje automático y ponerlos en uso en la vida real sin conocer las matemáticas avanzadas

Conjuntos de datos: ¿Cuáles son los principales corpus de texto utilizados por los lingüistas computacionales y los investigadores del procesamiento del lenguaje natural, y cuáles son las características / sesgos de cada corpus?

¿Qué tipo de algoritmos utilizamos para el análisis de sentimientos? ¿Hay alguna lista para los algoritmos y sobre su estructura?

¿Por qué es importante la eliminación de variables en los modelos gráficos probabilísticos?

¿Cuál es la diferencia entre machine learning y IOT?

¿Son las preguntas el verdadero punto de partida del análisis de Big Data?

¿Es estúpido cambiar de trabajo de programación en C a aprendizaje automático?

Cómo evaluar la agrupación de k-medias en R

¿Cuáles son buenos recursos para aprender sobre la ejecución distribuida en redes neuronales profundas (MPI, allreduce, etc.)?

¿Cuáles son los diferentes modelos de aprendizaje automático?