¿Por qué el embolsado es más preciso que solo mirar todo el conjunto de datos y tomar el promedio?

En primer lugar, la premisa en su pregunta es incorrecta. El teorema de no almuerzo gratis [1] establece claramente que todos los alumnos son iguales cuando se promedian todos los posibles problemas. Su cita de Breiman dice algo un poco diferente. Aparentemente hay un subconjunto de problemas en los que embolsar a un aprendiz de árbol mejora la precisión. Probemos e imaginemos por qué esto podría ser así.

Por favor considere la figura a continuación. Las líneas onduladas representan una búsqueda a través del espacio de hipótesis por un solo aprendiz de árbol. Debido a que un aprendiz de árbol generalmente tiene un sesgo muy fuerte [2] (por ejemplo, seleccionar atributos en orden de ganancia de información) solo se busca una parte muy pequeña del espacio de búsqueda. Sin embargo, si aplicamos el embolsado, podemos buscar una parte mucho más grande del espacio de búsqueda, representada por otras líneas onduladas. Estas líneas pueden formarse porque el muestreo aleatorio del conjunto de datos puede producir árboles muy diferentes. La X representa un modelo de embolsado. Tenga en cuenta que este modelo está ubicado en un área del espacio de hipótesis que un solo aprendiz de árbol nunca podría alcanzar.

Para concluir, el embolsado disminuye el sesgo de procedimiento de un alumno [3]. Esto significa que podemos esperar que el ensacado supere a los árboles individuales en escenarios donde el sesgo de un aprendiz de árbol único no es adecuado.

[1] http://en.wikipedia.org/wiki/No_…
[2] http://en.wikipedia.org/wiki/Sup…
[3] http://en.wikipedia.org/wiki/Ind…

————– (fin de la respuesta original)

En respuesta a algunos comentarios:

Declaración # 1, entendiendo el espacio de hipótesis:
¿Qué representa un solo punto en este espacio de hipótesis? Este es un mapeo de X -> y. La gente típicamente llama a este mapeo un modelo. En este contexto, un punto en el espacio de hipótesis es un árbol de decisión único.

Declaración # 2, los alumnos del árbol de decisión son deterministas:
Los alumnos del árbol de decisión son típicamente deterministas, lo que significa que, para un conjunto de datos dado, un alumno del árbol de decisión siempre generará el mismo modelo de árbol.

Combinando las declaraciones # 1 y # 2:
Si un árbol de decisión es un solo punto, ¿por qué afirmar que una línea ondulada representa la salida de un alumno del árbol de decisión? Esto se debe a que los alumnos del árbol de decisión suelen tener en cuenta múltiples parámetros que determinan el modelo final que se proporciona como resultado. Si intentas dibujar el conjunto de todos los modelos de árbol posibles que un aprendiz de árbol puede producir, entonces lo que obtienes es una línea.

¿Por qué un solo árbol no llega a X ?
Un aprendiz de árbol único no llega a X , porque la imagen del espacio de hipótesis se dibuja precisamente para subyacer a este punto. ¡Hay puntos en el espacio de hipótesis que un aprendiz de árbol de decisión no puede alcanzar! Debido al sesgo de procedimiento (que se determina la implementación del alumno aprendiz del árbol de decisión (el algoritmo que genera modelos de árbol)), el número total de árboles buscados es solo un porcentaje muy pequeño del número total de árboles que puede existir en un sentido matemático. Podría decirse que el número de asignaciones X -> y es incluso mayor que el número de asignaciones X -> y que se pueden expresar como un árbol. Pero en este escenario solo nos interesan las asignaciones X -> y que son árboles o bolsas de árboles.

El mensaje importante para recordar (que es válido para cualquier alumno, no solo para el árbol de decisiones) :
Al usar el embolsado, relajamos el sesgo de procedimiento y podemos buscar una parte más grande del espacio de hipótesis. Y como se mencionó anteriormente, los modelos en bolsas y los modelos normales viven en el mismo espacio (ambos son mapeos de X -> y). Es por eso que puedes dibujar ambos en una sola imagen.

Lo siento, no vi la referencia de Breiman en los detalles cuando respondí. Pensé que estabas haciendo una pregunta mucho más básica. Lo editaré cuando tenga tiempo.

No es más preciso sino más representativo .

El objetivo de las estadísticas es tomar una gran colección de información y hacerla útil: concisa, pero lo suficientemente cerca del conjunto original para ser … relevante, veraz: decimos “representativo”. Esa es la noción clave: cada vez que escuchas a alguien decir ‘promedio’, en realidad significan eso; quieren decir: cuéntame algo sobre todo ese archivo que ni siquiera sé cómo abrir, algo que puedo entender. He escuchado que más clientes me preguntan sobre el color favorito de sus usuarios como el color ‘promedio’ que … bueno, el nombre correcto para eso es ‘modal’.

De todos modos: el promedio rara vez es el elemento relevante. El ensacado le permite expresar aproximadamente la distribución , cuán grande, cuán pequeño y cuán frecuentes son algunas medidas.

Por ejemplo, tome las ganancias en los EE. UU. Y Noruega: ambas podrían expresarse usando el promedio, que sería sorprendentemente cercano. Sin embargo, eso no le permitiría darse cuenta de que a la mayoría de los Nowegian se les paga dentro del ± 40% de ese promedio, mientras que la mayoría de los estadounidenses no lo hacen; muchos están arriba, y muchos más están abajo.

Pero no necesita ser preciso para ese nivel de análisis: debe ser relevante, apropiado. Para expresar riqueza, es mucho mejor decir cuánto gana, digamos, deciles . Las alternativas, o más bien, los complementos al promedio incluyen:

  • mediana: el “decil” medio
  • promedio de robusts: el promedio de los ocho deciles medios, o
  • desviación estándar, cuán lejos de las observaciones promedio tienden a estar.

de la población: sectores del 10%, clasificados por ingresos.

El embolsado también es bueno: cuántas personas tienen ganancias entre un conjunto de umbrales arbitrarios. Las dos opciones son diferentes, pero ambas expresan simple y eficientemente una realidad compleja. Observe cómo ninguno de los dos es ni remotamente exacto : ¡usted hizo cortes que están separados por decenas de miles de dólares!

En ese nivel, la precisión no es asunto tuyo. Cuando se sabe cómo será la distribución, la forma de esa curva, un par de figuras a menudo son suficientes y se necesita precisión; sin embargo, cuando no sabe, el embolsado o los deciles son la mejor manera de notar algo grande.

Lo que debería preocuparte es que confundí intencionalmente las ganancias y la riqueza en ese ejemplo , y que probablemente pensaste en los salarios, mientras que las ganancias de capital pueden ser mucho mayores, pero no siempre se miden anualmente … Esa discusión sobre qué datos exactos tomar, y muchos Me gusta en el mismo tema (seguro de salud, tasa de impuestos, pensión alimenticia, por hogar o por adulto) es mucho más relevante para su verdadera preocupación (equidad, felicidad) que hablar sobre “ingresos anuales” y esperar que se aproxime a lo que está buscando. . Por eso siempre digo que no hago estadísticas, la computadora sí; lo que hago es hacer preguntas para elegir qué estadísticas hacer, y eso es mucho menos obvio.

Empaquetar un procedimiento de aprendizaje supervisado simplemente cambia la compensación de sesgo-varianza hacia más sesgo y menos varianza:

http://en.wikipedia.org/wiki/Sup

Como señaló Wessel Luijben, esto no siempre es útil. Reducirá su error de predicción si su procedimiento tiene tendencia a sobreajustar. Breiman demostró que esto es cierto para ciertos procedimientos que involucran selecciones de variables definidas: árboles de clasificación y regresión y selección de subconjuntos en regresión lineal.