¿Cuál es la diferencia entre embolsado y bootstrapping en ML / estadísticas?

TLDR: Bootstrapping es una técnica de muestreo y Bagging es un conjunto de aprendizaje automático basado en una muestra bootstrapped.

Bootstrapping:
Para entender bootstrap, supongamos que fuera posible extraer muestras repetidas (del mismo tamaño) de la población de interés, una gran cantidad de veces. Entonces, uno tendría una idea bastante buena sobre la distribución de muestreo de una estadística particular a partir de la recopilación de sus valores derivados de estas muestras repetidas. La idea detrás de bootstrap es utilizar los datos de un estudio de muestra a la mano como una “población sustituta”, con el propósito de aproximar la distribución muestral de una estadística; es decir, volver a muestrear (con reemplazo) de los datos de muestra disponibles y crear una gran cantidad de “muestras fantasmas” conocidas como muestras de bootstrap.
En otras palabras, muestreamos aleatoriamente con reemplazo de las n observaciones conocidas. Entonces llamamos a esto una muestra de bootstrap. Como permitimos el reemplazo, esta muestra de arranque probablemente no sea idéntica a nuestra muestra inicial. Algunos puntos de datos pueden estar duplicados, y otros puntos de datos de la inicial pueden omitirse en una muestra de arranque.
Un ejemplo:
El siguiente ejemplo numérico ayudará a demostrar cómo funciona el proceso. Si comenzamos con la muestra 2, 4, 5, 6, 6, todas las siguientes son posibles muestras de arranque:

  • 2, 5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Harpillera:
Bootstrap aggregating (bagging) es un meta-algoritmo de conjunto de aprendizaje automático diseñado para mejorar la estabilidad y precisión de los algoritmos de aprendizaje automático utilizados en la clasificación y regresión estadística. También reduce la variación y ayuda a evitar el sobreajuste. Aunque generalmente se aplica a los métodos del árbol de decisión, se puede usar con cualquier tipo de método.

Fuente: Bootstrapping, Bagging, Boosting y Random Forest

El ensacado es un enfoque para el aprendizaje conjunto que se basa en el arranque . En breve, dado un conjunto de entrenamiento, producimos múltiples conjuntos de entrenamiento diferentes (llamados muestras de bootstrap ), mediante muestreo con reemplazo del conjunto de datos original. Luego, para cada muestra de bootstrap, creamos un modelo. Los resultados en un conjunto de modelos, donde cada modelo vota con el mismo peso. Por lo general, el objetivo de este procedimiento es reducir la varianza del modelo de interés (por ejemplo, árboles de decisión).

Bootstrapping es una técnica estadística más genérica para aproximar la distribución de muestreo, que de una forma u otra utiliza remuestreo con reemplazo .