¿Cuál es la diferencia entre boost, ensemble, bootstrap y bagging?

  • Impulsar es la idea de entrenar iterativamente el mismo clasificador “débil”, de modo que en cada iteración, se supone que el clasificador i-ésimo corrige los errores cometidos por el clasificador anterior (i-1). Se realiza ponderando más las observaciones mal clasificadas.
    El clasificador final se calcula mediante una media ponderada de todos los clasificadores “débiles”, estando los pesos cerca de las precisiones calculadas para cada clasificador.
  • El ensamblaje es bastante general y abarca métodos simples como el promedio, y otros más complicados como aumentar, embolsar, apilar, etc.
  • Bootstrapping significa tomar una muestra de una población dibujando con reemplazo. Es una de las ideas principales detrás de Bagging (que significa Bootstrap AGGregatING).
  • Empaquetar significa entrenar al mismo clasificador en diferentes subconjuntos (que pueden estar superpuestos) de un conjunto de datos. Lo haces con bootstrap.

Conjunto: es un método para combinar múltiples modelos.

La idea es que combinar más de un modelo daría un mejor resultado que un solo modelo. Hay varias formas de ensamblaje, como embolsado, refuerzo, apilamiento, etc.

Bootstrapping: es una técnica de creación de subconjuntos de todo el conjunto.

Crear múltiples modelos en el mismo conjunto de observaciones dará aproximadamente los mismos resultados. Por lo tanto, todo el conjunto se divide en conjuntos más pequeños (con reemplazo). Este proceso de descomponerse en múltiples conjuntos es de arranque.

Ensacado : técnica de ensamblaje

La técnica de ensacado (o agregación de Bootstrap) combina predicciones de modelos construidos en subconjuntos creados por bootstrapping. Varios algoritmos que usan la técnica de ensacado son: Estimador de ensacado, Bosque aleatorio, Árboles adicionales.

Impulso : técnica de ensamblaje

Impulsar es un proceso secuencial en el que cada modelo posterior intenta corregir los errores del modelo anterior. Esto se hace dando mayores pesos a las observaciones que fueron predichas incorrectamente. El modelo final (aprendiz fuerte) es la media ponderada de todos los modelos (aprendices débiles). AdaBoost GBM, XGBoost, etc. son algunos de los algoritmos que utilizan la técnica de refuerzo.

Impulso se refiere a cualquier método de conjunto que puede combinar varios alumnos débiles en un alumno fuerte y se utiliza para reducir el sesgo y la varianza. Lo hace a través de un voto mayoritario ponderado (clasificación) o una suma ponderada (regresión). Ada boost y Gradient boost son dos métodos populares.

Bootstrapping es una técnica de muestreo con reemplazo. Esto termina dejando algunos datos sin seleccionar (en promedio se muestrea un 63%), mientras que el 37% restante de las instancias de entrenamiento que no se muestrean se denominan instancias fuera de bolsa. Dado que el predictor nunca ve las instancias fuera de bolsa durante el entrenamiento, puede evaluarse en estas instancias sin la necesidad de un conjunto de validación o validación cruzada por separado.

El ensacado, también conocido como agregado de bootstrap, se usa para reducir la variación, lo que ayuda a evitar el sobreajuste. La idea es que una vez que tenga su muestra de bootstrapping, pueda construir una serie de modelos. Este conjunto de modelos llevará votos con el mismo peso y podrás usar ese promedio.

Ensemble se basa en la idea de que podemos reducir la varianza mediante el uso de la sabiduría de la multitud, por ejemplo, promediando el puntaje en 10 o 20 predictores, en lugar de confiar en solo uno. Esto ha demostrado mejorar la precisión, por lo que se recomienda que explore las técnicas de conjunto. Uno de los más populares son los bosques aleatorios, que dependen de una cantidad específica de árboles de decisión para crear predicciones.

Los métodos de conjunto combinan múltiples modelos en un solo modelo. Impulsar hace esto mediante la adaptación de modelos a componentes de error de iteraciones anteriores. El ensacado lo hace a través de modelos crecientes en muestras de arranque de muestras de datos (muestras aleatorias).

  • Conjunto se refiere a la técnica general de combinar varios modelos débiles para lograr un modelo más fuerte. El embolsado y el refuerzo suelen ser dos formas de hacerlo.
  • La agregación Bootstrap es otro nombre para el ensacado
  • Embolsado: ayuda a reducir la varianza.
  • Impulso: al impulsar, entrena una serie de clasificadores débiles y, posteriormente, aumenta la penalización en los puntos mal clasificados. La predicción final es el voto ponderado de todos los clasificadores débiles.

More Interesting

¿Cuál es el lenguaje de programación más común / importante para la ciencia de datos?

¿Por qué Data Science es tan popular en los Estados Unidos pero casi inexistente en Suiza?

¿Cuál es la diferencia entre estadística computacional y ciencia de datos?

¿Existen estudios de big data en las cadenas de suministro?

¿Cuál es el paquete de software más útil para aprender sobre pronósticos de series de tiempo y análisis de regresión?

¿Cuáles son las similitudes y diferencias fundamentales entre un actuario / ciencias actuariales y un científico de datos / ciencia de datos?

¿Cómo es más útil el Big Data que otros conjuntos de datos?

Actualmente, estoy trabajando con la tecnología AS400 y quiero ingresar al análisis de datos. ¿Cuál debería ser mi primer paso?

¿Cuál es el mejor curso de especialización en ciencias de datos en línea?

¿De qué manera es Excel VBA útil para los científicos y analistas de datos?

¿Cuáles son algunos algoritmos de aprendizaje automático que no pueden tolerar la falta de datos?

¿Qué campo debo elegir, redes informáticas o ciencia de datos? Amo los dos.

¿Podemos usar análisis de datos, SAS y probabilidad al aplicar un modelo a una hipótesis para encontrar la pareja adecuada para el matrimonio?

¿Cuál es la especialidad / campo de estudio más útil para alguien dispuesto a trabajar en el campo de la ciencia de datos?

¿Se saturará el mercado laboral para estadísticos y científicos de datos en los Estados Unidos en los próximos 5 años?