¿Por qué el ensacado funciona tan bien para los árboles de decisión, pero no para los clasificadores lineales?

Porque lo que hace Bagging es reducir la varianza de los algoritmos de aprendizaje inestables.

Un algoritmo de aprendizaje es un algoritmo que produce un clasificador a partir de un conjunto de entrenamiento. Y un clasificador es una función que asigna una clase a un nuevo objeto.

Se sabe que el error de un algoritmo de aprendizaje tiene tres componentes: el ruido, el sesgo y la varianza. En pocas palabras, el ruido es el error inevitable (error de Bayes), el sesgo es el error sistemático que se espera que haga el algoritmo de aprendizaje, y la variación mide la sensibilidad del algoritmo al conjunto de entrenamiento.

Un algoritmo de aprendizaje inestable es aquel en el que pequeños cambios en el conjunto de entrenamiento causan cambios significativos en el clasificador producido (gran variación). Es decir, cuando se perturba el conjunto de entrenamiento, los clasificadores respectivos funcionan de manera diferente.

Los algoritmos de aprendizaje que usan árboles de decisiones como representación son inestables. Y los clasificadores discriminantes lineales son estables. Para ser más exactos: los clasificadores discriminantes lineales tienen una propiedad de estabilidad más sensible, la estabilidad de un clasificador lineal (o cualquier otro clasificador) es proporcional al tamaño del conjunto de entrenamiento e inversamente proporcional a la dimensionalidad de las instancias.

Para una discusión avanzada sobre este tema, puede consultar las siguientes fuentes:
– Ensacado para clasificadores lineales; Marina Skurichina y Robert Duin, (Informe técnico)
– Empaquetado, refuerzo y el método de subespacio aleatorio para clasificadores lineales; Marina Skurichina y Robert Duin, (Análisis de patrones y aplicaciones, 2002)

Cómo resolver UVa 1449 usando hashing

Quicksort: ¿Cuál es el algoritmo de ordenación rápida?

¿Cuál es la mejor estructura de datos para un juego de ajedrez?

¿Hay un libro que enseñe algoritmos del nivel 0 a los algoritmos de codificación?

¿Qué es un algoritmo para programar un torneo para que termine en el menor tiempo posible, dado un torneo round robin (donde cada jugador juega entre sí) entre n jugadores (n es par) que puede representarse con un gráfico completo?

¿Cuál es el problema conmigo si puedo decir cómo funciona el algoritmo pero no puedo escribir el programa para el mismo? ¿Cómo puedo deshacerme de él? ¿Por favor ayuda?

¡Porque el resultado es un modelo lineal!

El ensacado es una técnica de ensamblaje aditiva. Cuando agrega muchos modelos lineales, ¡el resultado es otro modelo lineal! Esto es fácil de probar al escribir dos modelos lineales (y = ax + b) y luego sumarlos.

Volviendo a su pregunta: ¿por qué no ayuda el embolsado? Bueno, porque ajustar un modelo lineal es convexo, por lo que puede encontrar la “mejor solución posible” fácilmente. Dicho esto, dado que el ensacado produce un modelo lineal, no puede superar la “mejor solución posible”.

Una técnica similar que utiliza el ensacado para aprender un modelo lineal es la regresión RANSAC, excepto que hay varios ajustes importantes que hacen que el método RANSAC sea robusto para los valores atípicos.

RANSAC

Joshua Hemmingway

Si piensa en algo como la regresión de OLS, las ecuaciones normales que producen estimaciones para las betas (parámetros de población) ya son AZUL (mejor estimador lineal imparcial). Por lo tanto, las estimaciones, si se cumplen los supuestos del modelo lineal (homoscedasticidad de la el término de error, sin correlación serial de los errores, sin multicolinealidad exacta, etc., ya son una varianza mínima e imparcial (de hecho, son las estimaciones de máxima verosimilitud). El embolsado es un procedimiento utilizado para “equilibrar” el equilibrio de sesgo-varianza, pero si OLS es AZUL, no hay necesidad de emplear un método como el embolsado.

Joshua Hemmingway

More Interesting

Entiendo cómo leer la recursividad pero no sé cómo resolverlos.

¿Dar un nombre largo a una variable es una pérdida de memoria? ¿Int qwertyuiop_asdfghjkl_zxcvbnm; int i; tener el mismo efecto en el tiempo de compilación y ejecución?

¿Qué causa que la implementación viable de Quicksort sea muy lenta?

¿Cuál fue tu algoritmo favorito del que aprendiste mucho?

Cómo programar un algoritmo de análisis de datos

¿Cómo se implementa la cola prioritaria en C ++? ¿Cómo se hace usando STL?

¿Cómo podemos solucionar esto?

¿Por qué obtener más puntos de datos soluciona el problema de la alta variación en un algoritmo de aprendizaje automático?

¿Implementar un algoritmo de detección de esquinas es un buen ejercicio para la visión por computadora?

¿Qué algoritmos existen para la reconstrucción de un conjunto de vectores de un diccionario de cardinalidad más pequeña?