K-means no se puede usar directamente para datos con valores numéricos y categóricos debido a la función de costo que utiliza. K-means utiliza la distancia euclidiana, que no está definida para datos categóricos. Por lo tanto, para usar el tipo K-means o el algoritmo de agrupamiento particional en datos mixtos, debe cambiar la función de costo para que pueda capturar la distancia o la similitud entre ambos tipos de datos.
Huang desarrolló un método simple en el que la distancia euclidiana se usa para encontrar similitudes entre los datos numéricos y la distancia de Hamming para la similitud entre los datos categóricos y los combina a ambos junto con algunos pesos como una función de costo para manejar datos mixtos. El documento está aquí http://grid.cs.gsu.edu/~wkim/ind…
Debería leer este artículo más reciente y altamente citado sobre la agrupación de datos mixtos utilizando el algoritmo de tipo k-means http://edu.cs.uni-magdeburg.de/E…
- ¿Cuál es la diferencia entre Deconvolución, Upsampling, Unpooling y Convolutional Sparse Coding?
- Entre JavaScript y la ciencia de datos, ¿qué debo hacer? Tengo que aprender a los dos desde cero.
- Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?
- ¿Por qué los CNN se usan más para tareas de visión por computadora que otras tareas?
- Data Science, Big Data, Machine Learning, ¿qué certificación debo hacer para cambiar la trayectoria profesional desde un entorno de control de calidad?