En primer lugar, la premisa en su pregunta es incorrecta. El teorema de no almuerzo gratis [1] establece claramente que todos los alumnos son iguales cuando se promedian todos los posibles problemas. Su cita de Breiman dice algo un poco diferente. Aparentemente hay un subconjunto de problemas en los que embolsar a un aprendiz de árbol mejora la precisión. Probemos e imaginemos por qué esto podría ser así.
Por favor considere la figura a continuación. Las líneas onduladas representan una búsqueda a través del espacio de hipótesis por un solo aprendiz de árbol. Debido a que un aprendiz de árbol generalmente tiene un sesgo muy fuerte [2] (por ejemplo, seleccionar atributos en orden de ganancia de información) solo se busca una parte muy pequeña del espacio de búsqueda. Sin embargo, si aplicamos el embolsado, podemos buscar una parte mucho más grande del espacio de búsqueda, representada por otras líneas onduladas. Estas líneas pueden formarse porque el muestreo aleatorio del conjunto de datos puede producir árboles muy diferentes. La X representa un modelo de embolsado. Tenga en cuenta que este modelo está ubicado en un área del espacio de hipótesis que un solo aprendiz de árbol nunca podría alcanzar.
Para concluir, el embolsado disminuye el sesgo de procedimiento de un alumno [3]. Esto significa que podemos esperar que el ensacado supere a los árboles individuales en escenarios donde el sesgo de un aprendiz de árbol único no es adecuado.
- ¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?
- ¿Cuáles son algunos proyectos increíbles bajo 100 líneas?
- Cómo usar el aprendizaje automático en IoT Hardware Security
- ¿Cómo calculamos el error cuadrático medio en la regla de aprendizaje de LMS?
- ¿Has utilizado Google Translate recientemente? ¿Cómo es la calidad de la traducción con su nueva traducción automática neuronal? ¿Cómo es para cualquier par de idiomas?
[1] http://en.wikipedia.org/wiki/No_…
[2] http://en.wikipedia.org/wiki/Sup…
[3] http://en.wikipedia.org/wiki/Ind…
————– (fin de la respuesta original)
En respuesta a algunos comentarios:
Declaración # 1, entendiendo el espacio de hipótesis:
¿Qué representa un solo punto en este espacio de hipótesis? Este es un mapeo de X -> y. La gente típicamente llama a este mapeo un modelo. En este contexto, un punto en el espacio de hipótesis es un árbol de decisión único.
Declaración # 2, los alumnos del árbol de decisión son deterministas:
Los alumnos del árbol de decisión son típicamente deterministas, lo que significa que, para un conjunto de datos dado, un alumno del árbol de decisión siempre generará el mismo modelo de árbol.
Combinando las declaraciones # 1 y # 2:
Si un árbol de decisión es un solo punto, ¿por qué afirmar que una línea ondulada representa la salida de un alumno del árbol de decisión? Esto se debe a que los alumnos del árbol de decisión suelen tener en cuenta múltiples parámetros que determinan el modelo final que se proporciona como resultado. Si intentas dibujar el conjunto de todos los modelos de árbol posibles que un aprendiz de árbol puede producir, entonces lo que obtienes es una línea.
¿Por qué un solo árbol no llega a X ?
Un aprendiz de árbol único no llega a X , porque la imagen del espacio de hipótesis se dibuja precisamente para subyacer a este punto. ¡Hay puntos en el espacio de hipótesis que un aprendiz de árbol de decisión no puede alcanzar! Debido al sesgo de procedimiento (que se determina la implementación del alumno aprendiz del árbol de decisión (el algoritmo que genera modelos de árbol)), el número total de árboles buscados es solo un porcentaje muy pequeño del número total de árboles que puede existir en un sentido matemático. Podría decirse que el número de asignaciones X -> y es incluso mayor que el número de asignaciones X -> y que se pueden expresar como un árbol. Pero en este escenario solo nos interesan las asignaciones X -> y que son árboles o bolsas de árboles.
El mensaje importante para recordar (que es válido para cualquier alumno, no solo para el árbol de decisiones) :
Al usar el embolsado, relajamos el sesgo de procedimiento y podemos buscar una parte más grande del espacio de hipótesis. Y como se mencionó anteriormente, los modelos en bolsas y los modelos normales viven en el mismo espacio (ambos son mapeos de X -> y). Es por eso que puedes dibujar ambos en una sola imagen.