Si quiere combinar la salida de un método no supervisado con el otro en serie, entonces es muy difícil saber el resultado.
Echemos un vistazo simple, si tiene K-means y algoritmo de agrupamiento jerárquico. Primero aplicas K-means, obtienes algunos grupos, ¿tendrá sentido aplicar grupos jerárquicos en él? ¡No lo creo! Si lo hace al revés, aún no tiene sentido porque estos dos métodos no dependen el uno del otro. Por otro lado, puede aplicar un Autoencoder (AE) seguido de K-means pero luego AE se usa para aprender la representación genérica y no se utiliza para realizar la agrupación, aunque lo está haciendo de manera no supervisada.
Un posible enfoque podría ser crear un conjunto de agrupación (o agrupación de consenso), donde combine los resultados de diferentes algoritmos de agrupación para obtener un mejor rendimiento de agrupación. La razón por la que llamo “rendimiento” y no precisión es porque la precisión se calcula cuando las etiquetas están presentes, y si tiene etiquetas, ¿por qué haría agrupamiento? Para demostrar el rendimiento, los resultados de agrupación se muestran comúnmente en términos de precisión, pero existen otras métricas para la agrupación. De todos modos, la agrupación por consenso es más desafiante que su contraparte supervisada. ¿Por qué? Suponga que el algoritmo de agrupación 1 predice una etiqueta para una muestra como “X”, y el algoritmo de agrupación 2 predice las mismas etiquetas que “Y”. ¿Cómo sabe que las etiquetas predichas “X” e “Y” son iguales o diferentes? ¿Por qué? Debido a que las etiquetas de clúster son arbitrarias, lo que llamas como “X”, puedo llamarlo como “BOBO” y todavía significa lo mismo. Por lo tanto, combinar los resultados de la agrupación múltiple es una tarea muy difícil.
- ¿El aprendizaje automático como campo todavía está en su infancia, o ya es sofisticado y está bien desarrollado?
- Cómo comenzar con el aprendizaje de múltiples núcleos
- ¿Es aconsejable crear una aplicación basada en el aprendizaje automático y el procesamiento de imágenes sin comprender el concepto matemático subyacente?
- ¿Aprendizaje automático sin historia matemática?
- ¿Cuáles son algunas estructuras de datos esenciales y conocimiento de algoritmos necesarios para estudiar ciencia de datos?
He publicado tres documentos sobre la combinación de los resultados de diferentes algoritmos de agrupación (tratándolo como un conjunto de agrupaciones) para la inicialización de los algoritmos K-means / K-modes, que pueden ser útiles para usted.
- Cálculo de los modos iniciales para el algoritmo de agrupación de modos K utilizando la acumulación de evidencia, Shehroz S. Khan y Shri Kant, XX Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI-07) , pp 2784-2789, Hyderabad, India, 2007
- Inicialización del centro de clústeres para datos categóricos utilizando clústeres de atributos múltiples, Shehroz S. Khan y Amir Ahmad, 3er Taller MultiClust: Descubrimiento, resumen y uso de clústeres múltiples , Conferencia Internacional SIAM sobre Minería de Datos (SDM’12), Anaheim, California, EE. UU., 2012 [PDF]
- Algoritmo de inicialización del Centro de clústeres para clústeres de modos K, Shehroz S. Khan y Amir Ahmad, Sistemas expertos con aplicaciones , Volumen 40, Número 18, páginas 7444-7456, 2013