Cómo hacer clustering para datos categóricos

La agrupación es un proceso de agrupar tipos similares de elementos de datos. Es muy útil en la agrupación natural de artículos. En el campo de la recuperación de información, hay varios algoritmos ya definidos e implementados a nivel abstracto.

Existen dos tipos de técnicas de agrupamiento:

Agrupación basada en particiones
Agrupación jerárquica

Bajo el tipo de Particionamiento, se definen los algoritmos K-means y K-medoids.

y para la agrupación jerárquica puede consultar la agrupación aglomerativa.

Ahora llegando al punto, la agrupación es un tipo de enfoque de aprendizaje automático sin supervisión. Para agrupar datos categóricos, puede llamar directamente a la biblioteca integrada de aprendizaje automático de Python y R. Si no, puede escribir el algoritmo por su cuenta.

La siguiente figura muestra la representación gráfica de la agrupación.

Para comprender en profundidad desde cero, siga el enlace:

Agrupación con K-medias en Python

Referencias

El laboratorio de ciencia de datos
Captura de pantalla de agrupamiento

Aprendizaje automáticoMinería de datos

¿Cuál es un buen conjunto de datos para probar mi clasificador vecino más cercano K?

¿Qué hay de nuevo con Wasserstein GAN?

Cómo analizar un algoritmo de repetición selectiva

¿Cómo funciona un mecanismo de atención en el aprendizaje profundo?

¿Por qué hay algunos teclados que no tienen ningún indicador de luz para Bloq Mayús, Bloqueo de números y Bloqueo de desplazamiento?

Cómo cifrar un archivo de modo que se deben poseer otros archivos para descifrarlo

La aparente dificultad de agrupar datos categóricos (nominales y ordinales, mezclados con variables continuas) está en encontrar una métrica de distancia apropiada entre dos observaciones.

Un enfoque estándar es calcular una matriz de distancia o disimilitud a partir de los datos y luego agruparla mediante agrupación jerárquica, PAM, etc.

Aquí hay algunos métodos: