¿Cuándo funciona el aprendizaje conjunto? La tecnología cambia la vida futura

No, no hay forma de predecir si un conjunto superará a un solo clasificador, pero hay algunos “indicadores” que podrían ayudarlo (consulte Ayuda y aumentar sus probabilidades ).

Buenas noticias

Pero la noticia de los bienes es que probablemente superarás al peor clasificador de tu conjunto. Digamos que no tiene muchos datos, y el mejor modelo de clasificador depende de la partición de datos (o del pliegue). El uso de un conjunto evitará la selección del peor clasificador (según el esquema de votación).
Si usa Apilamiento y tiene suficientes datos para aprender los pesos ideales, es probable que tenga, al menos, el mismo rendimiento que el mejor clasificador base del conjunto.
Es posible que dos clasificadores clasifiquen erróneamente una muestra de prueba dada, pero cuando se combinan, clasifican correctamente la muestra de prueba. Sí, ¡el aprendizaje conjunto es increíble! Entonces, si tienes suficiente tiempo, ¡pruébalo!

Problema de 3 clases, probabilidades de c1 = [0.5, 0.4, 0.1]; c2 = [0.1; 0.4; 0,5]; conjunto (promedio) = [0.3, 0.4, 0.3].

Malas noticias

Los sistemas clasificadores múltiples son mucho más complejos que un clasificador único; Es más difícil de mejorar, lleva más tiempo entrenar y más tiempo para clasificar una muestra de prueba. Entonces, no abuses de ello. Personalmente, he diseñado sistemas en los que un conjunto complejo tenía una precisión 1% mejor que un solo SVM. Adivina qué, usé un solo SVM.

Ayudante

Siempre es una buena idea probarlo y verlo, pero puede estar más seguro si se encuentra en uno de los siguientes casos:

Conjuntos de datos desequilibrados: pocas muestras de una clase (clase minoritaria) y muchas muestras de las otras clases (clases mayoritarias). Para tales conjuntos de datos, se sabe que los métodos de conjunto aumentan la precisión de la clasificación. Existen métodos específicos de aprendizaje en conjunto para conjuntos de datos desequilibrados, pero en general, cualquier aprendizaje en conjunto funcionará bien.
Conjuntos de datos ruidosos: Ensemble Learning también es conocido por ser capaz de generalizar soluciones evitando el sobreajuste en caso de conjuntos de datos ruidosos. Imagine Bagging, por ejemplo, para una región determinada en el espacio de características, algunos clasificadores fueron entrenados con datos ruidosos, algunos no tenían, en promedio, límites de decisión más suaves y un sistema más robusto al ruido.
Problemas mal definidos: los problemas definidos serán los peores. A veces tienes pocos datos y con mala calidad. El uso de un método de conjunto con la selección dinámica de conjunto es un buen enfoque en tales casos (manténgalo simple en el clasificador base).

Aumenta tus probabilidades

En su ejemplo (dos clasificadores con una precisión de 0.7 que combinados tienen 0.9), tiene un escenario específico de clasificadores diversos.

Si todos los clasificadores clasifican erróneamente las mismas muestras, el rendimiento no aumentará. Para aumentar el rendimiento, los clasificadores de base en un conjunto deben clasificar correctamente diferentes muestras, deben ser diversos. Existen varias métricas de diversidad (Q Statistics, Double Fault, Entropy E …), pero la mejor manera (IMHO) es garantizar que los clasificadores base sean diversos creando diversidad mediante:

utilizando clasificadores de diferentes naturalezas (árboles de decisión, KNN, SVM …).
cambiar el conjunto de entrenamiento para cada clasificador base (tenga en cuenta que debe usar clasificadores sensibles a los cambios en el conjunto de entrenamiento); [ver Embolsado]
cambiar el espacio de características para cada clasificador base (aplicando PCA, subselección y otros) es un buen enfoque cuando tiene demasiadas características. [ver Subespacio aleatorio].

Los dos últimos son especialmente útiles en los casos en que sus clasificadores básicos ya están basados en conjuntos (Random Forest Classifier y XGBoost), caso en el que es más difícil aumentar el rendimiento mediante el ensamblaje. Ambos están disponibles a través de la configuración de parámetros en la apis sklearn y xgboost.

Buena suerte