Cómo hacer clustering para datos categóricos

La agrupación es un proceso de agrupar tipos similares de elementos de datos. Es muy útil en la agrupación natural de artículos. En el campo de la recuperación de información, hay varios algoritmos ya definidos e implementados a nivel abstracto.

Existen dos tipos de técnicas de agrupamiento:

  1. Agrupación basada en particiones
  2. Agrupación jerárquica

Bajo el tipo de Particionamiento, se definen los algoritmos K-means y K-medoids.

y para la agrupación jerárquica puede consultar la agrupación aglomerativa.

Ahora llegando al punto, la agrupación es un tipo de enfoque de aprendizaje automático sin supervisión. Para agrupar datos categóricos, puede llamar directamente a la biblioteca integrada de aprendizaje automático de Python y R. Si no, puede escribir el algoritmo por su cuenta.

La siguiente figura muestra la representación gráfica de la agrupación.

Para comprender en profundidad desde cero, siga el enlace:

Agrupación con K-medias en Python

Referencias

  1. El laboratorio de ciencia de datos
  2. Captura de pantalla de agrupamiento

La aparente dificultad de agrupar datos categóricos (nominales y ordinales, mezclados con variables continuas) está en encontrar una métrica de distancia apropiada entre dos observaciones.

Un enfoque estándar es calcular una matriz de distancia o disimilitud a partir de los datos y luego agruparla mediante agrupación jerárquica, PAM, etc.

Aquí hay algunos métodos:

  • Usa la métrica de Gower. Aquí hay una implementación de R llamada margarita.
  • Obtenga una matriz de distancia de proximidad basada en bosque aleatorio.
  • kmodes

K – El caso de uso exacto de la agrupación en modo es la agrupación de datos categóricos. K-modes / http: //www.irma-international.or

La clasificación de clase latente es una opción que podría ayudarlo.

More Interesting

¿Qué cursos debería tomar para especializarse en aprendizaje automático, ciencia de datos e IA como estudiante de MS CS en USC?

¿Son buenos los cursos de Machine Learning AZ y Deep Learning AZ de Kirill Eremenko en Udemy?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

Usando TensorFlow, ¿cómo construiría una IA que pueda reconocer patrones en secuencias numéricas y luego transmitir el patrón al usuario? Está destinado a aprender los patrones que le doy de comer.

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Qué arquitectura / herramientas usan los gigantes tecnológicos como Facebook / Amazon / Apple / Microsoft para el análisis de big data / ML?

¿Cuál es la parte más lenta del método SVM?

¿El análisis discriminante lineal funciona para distribuciones que no sean gaussianas?

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?

¿Cómo utiliza Foursquare el aprendizaje automático para mejorar el producto?

¿Por qué podría mejorarse el arrepentimiento del bandido lineal mediante una proyección aleatoria?

Desde la perspectiva de la ciencia de datos, ¿qué salió mal al predecir las elecciones presidenciales de 2016 en los Estados Unidos?

¿Dónde funcionará bien el aprendizaje automático como servicio? ¿Dónde no lo hará?

¿Dónde se pueden encontrar nuevos artículos sobre aprendizaje automático y aprendizaje profundo? ¿Hay algún tipo de agregador?

¿Cuál es una buena referencia para aprender cómo implementar y usar la búsqueda de línea para la optimización?