¿Cómo funcionan los métodos de conjunto y por qué son superiores a los modelos individuales?

Promedian los sesgos

Si promedia un montón de encuestas de tendencia democrática y un montón de encuestas de tendencia republicana juntas, obtendrá en promedio algo que no se inclina de ninguna manera

Reducen la varianza

La opinión agregada de un grupo de modelos es menos ruidosa que la opinión individual de uno de los modelos. En finanzas, esto se llama diversificación: una cartera mixta de muchas acciones será mucho menos variable que solo una de las acciones por sí sola. Esta es también la razón por la cual sus modelos serán mejores con más puntos de datos en lugar de menos.

Es poco probable que se sobreajusten

Si tiene modelos individuales que no se sobreajustan y combina las predicciones de cada modelo de una manera simple (promedio, promedio ponderado o regresión logística), entonces no hay espacio para el sobreajuste.

Algunos modelos, como los modelos forestales, ya son modelos de conjunto.

Consulte ¿Cuáles son los mejores métodos para combinar diferentes modelos de aprendizaje automático para obtener una mejor predicción que cualquier modelo individual? sobre cómo aplicar modelos de conjunto.

Esos documentos sobre: Métodos de conjunto (es decir, sistemas de clasificación múltiple), diversidad de clasificadores de conjunto y selección dinámica de clasificadores son lo suficientemente buenos como para tener una comprensión general de la idea y la motivación de MCS.

  • Una encuesta de sistemas clasificadores múltiples como sistemas híbridos
  • Un análisis de las medidas de diversidad.
  • Selección dinámica de clasificadores: una revisión exhaustiva

Responde tu pregunta de una manera muy simple:

Imagine que tiene una enfermedad extraña y desconocida, y tiene la opción de ir a un solo médico o al Comité de un médico de varias áreas de conocimiento, ¿cuál elegiría? Esa es la idea general detrás de los métodos de conjunto (es decir, sistemas clasificadores múltiples).

Ensemble Methods utiliza dos o más clasificadores diversos (a veces clasificadores de diferente naturaleza) con la esperanza de que, en promedio, un conjunto de clasificadores tenga un rendimiento más alto que un solo clasificador. Si tiene 10 clasificadores, cada uno clasifica erróneamente el 10% del patrón de prueba … imagine que todos los clasificadores son 100% diversos … el uso de todos los clasificadores le dará un 100% de precisión, mientras que uno solo le dará un 90% de precisión. Es por eso que, en un método de conjunto, desea generar clasificadores que tengan diferentes regiones de competencia (están equivocados en diferentes áreas del espacio).

Ahora, hagámoslo aún mejor, imagine que tiene un hospital con varios médicos de diferentes áreas. Cada vez que llegue al hospital, un médico general lo examinará y, conociendo a todos los médicos y los pacientes anteriores, lo enviará al médico que cree que es la mejor opción para usted. En comparación con solo ir a un médico general, sería un gran negocio, ¿verdad? Esa es la idea detrás de Dynamic Classifier Selection (DCS), o Dynamic Ensemble Selection (DES).

Dada una muestra de prueba, el algoritmo DCS seleccionará el clasificador con mayor precisión de clasificación en la región de muestra de prueba. La precisión local general es un método DCS que, dada una muestra de prueba x, encuentra los vecinos K más cercanos de x en el conjunto de validación, y selecciona el clasificador que clasifica mejor a esos vecinos para hacer la clasificación de x.

¡Avísame si tienes problemas para entender esos documentos!

Los diferentes métodos de conjunto utilizan diferentes técnicas, pero dos de las técnicas originales son el embolsado (submuestreo de los datos de entrenamiento) y el refuerzo (centrado en instancias de entrenamiento mal clasificadas y reaprendizaje con diferentes pesos).

Cada uno funciona por una razón diferente.

  • El ensacado funciona porque algunos algoritmos de aprendizaje subyacentes son inestables: entradas ligeramente diferentes conducen a salidas muy diferentes. Si puede aprovechar esta inestabilidad ejecutando múltiples instancias, se puede demostrar que la inestabilidad reducida conduce a un menor error. Si desea comprender por qué, el papel de ensacado original ( http://www.springerlink.com/cont …) tiene una sección llamada “por qué funciona el ensacado”
  • El impulso funciona debido al enfoque en definir mejor el “borde de decisión”. Al volver a ponderar los ejemplos cerca del margen (los ejemplos positivo y negativo) se obtiene un error reducido (consulte http://citeseerx.ist.psu.edu/vie …)

More Interesting

¿Cuáles son los problemas menos resueltos o no resueltos que se pueden resolver con el aprendizaje automático y el aprendizaje profundo?

¿Hay alguna anomalía inexplicable en la codificación de la computadora que pueda sugerir que las máquinas tienen alma?

¿Cómo se determina el rango de posibles valores lambda cuando se realiza la validación cruzada en una regresión de lazo?

¿Las PGM son esenciales para el aprendizaje profundo?

¿Cuál es la mejor manera de implementar mi algoritmo de reducción de dimensiones?

¿Cómo escribirías un programa de aprendizaje automático desde cero?

¿Cuál es una buena manera de entender las dos fórmulas con respecto a este modelo gráfico de probabilidad dado?

¿Cómo se encuentran los trabajos de consultoría en machine learning + PNL?

¿Cómo debo comenzar a aprender 'Machine Learning usando Java'?

¿Cuál es la diferencia entre agrupar sin PCA y agrupar con PCA?

¿Con qué facilidad pueden los actuarios cambiar a carreras relacionadas con TI como la ciencia de datos, el aprendizaje automático y el desarrollo de software?

¿Cuáles son las propiedades utilizadas para agrupar partículas en tipos?

¿En qué se diferencia el aprendizaje profundo del perceptrón multicapa?

¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?

¿Qué lenguajes de programación son mejores para procesar el sonido y darlo como entrada a una red neuronal artificial?