TLDR: Bootstrapping es una técnica de muestreo y Bagging es un conjunto de aprendizaje automático basado en una muestra bootstrapped.
Bootstrapping:
Para entender bootstrap, supongamos que fuera posible extraer muestras repetidas (del mismo tamaño) de la población de interés, una gran cantidad de veces. Entonces, uno tendría una idea bastante buena sobre la distribución de muestreo de una estadística particular a partir de la recopilación de sus valores derivados de estas muestras repetidas. La idea detrás de bootstrap es utilizar los datos de un estudio de muestra a la mano como una “población sustituta”, con el propósito de aproximar la distribución muestral de una estadística; es decir, volver a muestrear (con reemplazo) de los datos de muestra disponibles y crear una gran cantidad de “muestras fantasmas” conocidas como muestras de bootstrap.
En otras palabras, muestreamos aleatoriamente con reemplazo de las n observaciones conocidas. Entonces llamamos a esto una muestra de bootstrap. Como permitimos el reemplazo, esta muestra de arranque probablemente no sea idéntica a nuestra muestra inicial. Algunos puntos de datos pueden estar duplicados, y otros puntos de datos de la inicial pueden omitirse en una muestra de arranque.
Un ejemplo:
El siguiente ejemplo numérico ayudará a demostrar cómo funciona el proceso. Si comenzamos con la muestra 2, 4, 5, 6, 6, todas las siguientes son posibles muestras de arranque:
- 2, 5, 5, 6, 6
- 4, 5, 6, 6, 6
- 2, 2, 4, 5, 5
- 2, 2, 2, 4, 6
- 2, 2, 2, 2, 2
- 4,6, 6, 6, 6
Harpillera:
Bootstrap aggregating (bagging) es un meta-algoritmo de conjunto de aprendizaje automático diseñado para mejorar la estabilidad y precisión de los algoritmos de aprendizaje automático utilizados en la clasificación y regresión estadística. También reduce la variación y ayuda a evitar el sobreajuste. Aunque generalmente se aplica a los métodos del árbol de decisión, se puede usar con cualquier tipo de método.
- ¿Por qué las redes neuronales artificiales se usan ampliamente en la clasificación de imágenes?
- ¿Podemos aplicar el filtrado colaborativo en la recomendación de noticias de última hora en línea?
- ¿Es cierto que incluso si podemos modelar a partir de la distribución del modelo [matemática] p (x) [/ matemática], el muestreo de importancia óptima no es [matemática] p (x) [/ matemática]?
- ¿Cómo se relaciona la RNN con el aprendizaje profundo?
- ¿Cuál es la forma correcta de crear consultas jerárquicas?
Fuente: Bootstrapping, Bagging, Boosting y Random Forest