¿Cuál es la diferencia entre embolsado y bootstrapping en ML / estadísticas?

TLDR: Bootstrapping es una técnica de muestreo y Bagging es un conjunto de aprendizaje automático basado en una muestra bootstrapped.

Bootstrapping:
Para entender bootstrap, supongamos que fuera posible extraer muestras repetidas (del mismo tamaño) de la población de interés, una gran cantidad de veces. Entonces, uno tendría una idea bastante buena sobre la distribución de muestreo de una estadística particular a partir de la recopilación de sus valores derivados de estas muestras repetidas. La idea detrás de bootstrap es utilizar los datos de un estudio de muestra a la mano como una “población sustituta”, con el propósito de aproximar la distribución muestral de una estadística; es decir, volver a muestrear (con reemplazo) de los datos de muestra disponibles y crear una gran cantidad de “muestras fantasmas” conocidas como muestras de bootstrap.
En otras palabras, muestreamos aleatoriamente con reemplazo de las n observaciones conocidas. Entonces llamamos a esto una muestra de bootstrap. Como permitimos el reemplazo, esta muestra de arranque probablemente no sea idéntica a nuestra muestra inicial. Algunos puntos de datos pueden estar duplicados, y otros puntos de datos de la inicial pueden omitirse en una muestra de arranque.
Un ejemplo:
El siguiente ejemplo numérico ayudará a demostrar cómo funciona el proceso. Si comenzamos con la muestra 2, 4, 5, 6, 6, todas las siguientes son posibles muestras de arranque:

2, 5, 5, 6, 6
4, 5, 6, 6, 6
2, 2, 4, 5, 5
2, 2, 2, 4, 6
2, 2, 2, 2, 2
4,6, 6, 6, 6

Harpillera:
Bootstrap aggregating (bagging) es un meta-algoritmo de conjunto de aprendizaje automático diseñado para mejorar la estabilidad y precisión de los algoritmos de aprendizaje automático utilizados en la clasificación y regresión estadística. También reduce la variación y ayuda a evitar el sobreajuste. Aunque generalmente se aplica a los métodos del árbol de decisión, se puede usar con cualquier tipo de método.

Fuente: Bootstrapping, Bagging, Boosting y Random Forest

¿Qué es un perceptrón?

¿Por qué todavía necesitamos aprender Minería de datos cuando tenemos Mahout?

Si uno está tratando de construir un codificador automático para el conjunto de datos MNIST, ¿debería normalizar los datos sin procesar?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?

¿Cómo están cambiando los proveedores wifi comunitarios como Fon los servicios tradicionales de datos móviles de Telco?

¿Cuáles son algunas buenas charlas sobre fragmentación?

El ensacado es un enfoque para el aprendizaje conjunto que se basa en el arranque . En breve, dado un conjunto de entrenamiento, producimos múltiples conjuntos de entrenamiento diferentes (llamados muestras de bootstrap ), mediante muestreo con reemplazo del conjunto de datos original. Luego, para cada muestra de bootstrap, creamos un modelo. Los resultados en un conjunto de modelos, donde cada modelo vota con el mismo peso. Por lo general, el objetivo de este procedimiento es reducir la varianza del modelo de interés (por ejemplo, árboles de decisión).

Bootstrapping es una técnica estadística más genérica para aproximar la distribución de muestreo, que de una forma u otra utiliza remuestreo con reemplazo .

Kiran Kannar

More Interesting

¿Qué recomendarías, Machine Learning o DevOps?

¿Cuáles son los principales enfoques de la inteligencia artificial?

Cómo calcular la retropropagación en una capa de agrupación promedio global

¿Qué es la recuperación de información? ¿Qué tan relacionado está con el análisis de datos y el aprendizaje automático?

¿Cómo implemento un análisis de sentimiento a nivel de documento?

¿Los métodos de aprendizaje automático son generales en comparación con los métodos de series temporales que se pueden llamar especializados?

¿La topografía emocional es relevante para IR?

¿Cuál es el impacto de la limitación de la velocidad de la luz en el aprendizaje automático?

¿Cuáles son las principales innovaciones y hallazgos del documento 'Diseño químico automático utilizando una representación continua de moléculas basada en datos'?

¿Hay alguna métrica de evaluación para chatbots?