¿Es posible combinar dos algoritmos no supervisados ​​en serie para maximizar la precisión?

Si quiere combinar la salida de un método no supervisado con el otro en serie, entonces es muy difícil saber el resultado.

Echemos un vistazo simple, si tiene K-means y algoritmo de agrupamiento jerárquico. Primero aplicas K-means, obtienes algunos grupos, ¿tendrá sentido aplicar grupos jerárquicos en él? ¡No lo creo! Si lo hace al revés, aún no tiene sentido porque estos dos métodos no dependen el uno del otro. Por otro lado, puede aplicar un Autoencoder (AE) seguido de K-means pero luego AE se usa para aprender la representación genérica y no se utiliza para realizar la agrupación, aunque lo está haciendo de manera no supervisada.

Un posible enfoque podría ser crear un conjunto de agrupación (o agrupación de consenso), donde combine los resultados de diferentes algoritmos de agrupación para obtener un mejor rendimiento de agrupación. La razón por la que llamo “rendimiento” y no precisión es porque la precisión se calcula cuando las etiquetas están presentes, y si tiene etiquetas, ¿por qué haría agrupamiento? Para demostrar el rendimiento, los resultados de agrupación se muestran comúnmente en términos de precisión, pero existen otras métricas para la agrupación. De todos modos, la agrupación por consenso es más desafiante que su contraparte supervisada. ¿Por qué? Suponga que el algoritmo de agrupación 1 predice una etiqueta para una muestra como “X”, y el algoritmo de agrupación 2 predice las mismas etiquetas que “Y”. ¿Cómo sabe que las etiquetas predichas “X” e “Y” son iguales o diferentes? ¿Por qué? Debido a que las etiquetas de clúster son arbitrarias, lo que llamas como “X”, puedo llamarlo como “BOBO” y todavía significa lo mismo. Por lo tanto, combinar los resultados de la agrupación múltiple es una tarea muy difícil.

He publicado tres documentos sobre la combinación de los resultados de diferentes algoritmos de agrupación (tratándolo como un conjunto de agrupaciones) para la inicialización de los algoritmos K-means / K-modes, que pueden ser útiles para usted.

  1. Cálculo de los modos iniciales para el algoritmo de agrupación de modos K ​​utilizando la acumulación de evidencia, Shehroz S. Khan y Shri Kant, XX Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI-07) , pp 2784-2789, Hyderabad, India, 2007
  2. Inicialización del centro de clústeres para datos categóricos utilizando clústeres de atributos múltiples, Shehroz S. Khan y Amir Ahmad, 3er Taller MultiClust: Descubrimiento, resumen y uso de clústeres múltiples , Conferencia Internacional SIAM sobre Minería de Datos (SDM’12), Anaheim, California, EE. UU., 2012 [PDF]
  3. Algoritmo de inicialización del Centro de clústeres para clústeres de modos K, Shehroz S. Khan y Amir Ahmad, Sistemas expertos con aplicaciones , Volumen 40, Número 18, páginas 7444-7456, 2013

Algo así como: Bosque aleatorio: aprendizaje no supervisado con bosques aleatorios

o tal vez esto y / o lo anterior sea relevante:

Por ejemplo, [eXtreme] [Gradiente] Impulso (aprendizaje automático) “¿Puede un conjunto de estudiantes débiles crear un solo estudiante fuerte ? [..] Sin embargo, la investigación ha demostrado que las categorías de objetos y sus ubicaciones en las imágenes también se pueden descubrir de forma no supervisada. [10] ”

(no solo para el idioma Julia):

dmlc / XGBoost.jl “es una interfaz de Julia de XGBoost, [..] La biblioteca está paralelizada usando OpenMP, y puede ser más de 10 veces más rápida que algunos paquetes de aumento de gradiente existentes”.

[Todavía estoy aprendiendo, así que tal vez solo estoy apuntando en la dirección equivocada y / o simplemente trabajo para supervisado.]

Si crees que todo esto funciona solo para supervisados, es posible que tengas razón o … y si crees que convertir un algoritmo supervisado en no supervisado es lo último en tecnología, entonces creo que tienes razón, pero al menos mira:

Una teoría probabilística del aprendizaje profundo

https://arxiv.org/pdf/1504.00641

“Como tal, la teoría presentada aquí hace una predicción clara de que para un DCN, el aprendizaje supervisado de los objetivos de la tarea conducirá inevitablemente a un aprendizaje no supervisado de variables molestas de tareas latentes.

Desde la perspectiva del aprendizaje múltiple, esto significa que la arquitectura de DCN está diseñada para aprender y desenredar las dimensiones intrínsecas del múltiple de datos.

[..]

A la luz de estos resultados, cuando hablamos de la capacitación de DCN, la distinción tradicional entre aprendizaje supervisado y no supervisado está mal definida en el peor de los casos y, en el mejor de los casos, engañosa. [..]

Una versión dinámica del DRM se entrenaría sin supervisión externa en grandes cantidades de datos de video (utilizando el algoritmo EM correspondiente) “.

Creo que el término “precisión” es más apropiado en el contexto del aprendizaje supervisado, más específicamente en la clasificación.

¿Qué significa “serie”?

Si se trata de una arquitectura de sistema de clasificación múltiple en serie (MCS) como se menciona aquí [1], no creo que el sistema consista en algoritmos no supervisados. Debe consistir en modelos construidos utilizando algoritmos supervisados.

De lo contrario, si “forma en serie” se refiere al método como en la generalización apilada [2], puede ser posible. El clasificador de nivel 1 o de nivel inferior se puede sustituir por un modelo construido utilizando un algoritmo de aprendizaje no supervisado, pero el algoritmo de aprendizaje de nivel más alto (creo que es mejor llamarlo como metaclasificador) debe construirse utilizando un algoritmo de aprendizaje supervisado.

Cualquier corrección a esta respuesta será apreciada.

[1] Ponti Jr, Moacir P. “Combinando clasificadores: desde la creación de conjuntos hasta la fusión de decisiones”. Tutoriales de gráficos, patrones e imágenes (SIBGRAPI-T), 24ª Conferencia SIBGRAPI 2011 sobre . IEEE, 2011.

[2] Wolpert, David H. “Generalización apilada”. Redes neuronales 5.2 (1992): 241-259.

More Interesting

¿Cuál es la diferencia entre la regularización y el sesgo inductivo en el aprendizaje automático?

¿Cuál es su enfoque para el diseño de redes neuronales convolucionales?

¿Cómo puede motivar a un estudiante de CS para que aprenda Machine Learning?

¿En qué casos tengo que usar un entorno distribuido y en qué casos no?

Cómo modelar el problema de un número de generación matka usando machine learning

¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.

¿Cuáles son algunos buenos indicadores para ideas de proyectos en biología computacional?

¿Por qué el submuestreo de características u observaciones mejora el rendimiento de GBM?

¿Cuáles son las implicaciones epistemológicas del hecho de que no podríamos haber programado conscientemente una red neuronal para hacer lo que hace?

¿Por qué hay una compensación entre exploración y explotación en el aprendizaje por refuerzo?

¿Cómo escribe Google las pruebas para su algoritmo de búsqueda para que sepan que no lo rompieron al hacer cambios?

¿Qué tan pronto la automatización afectará el futuro del arte conceptual?

¿Qué quiere decir con redes neuronales lineales profundas / no lineales?

¿Cómo funcionan los aceleradores de procesador?

¿Cómo utiliza Quora el aprendizaje automático en 2015?