¿Qué es el embolsado en el aprendizaje automático?

El embolsado se usa típicamente cuando se desea reducir la variación mientras se mantiene el sesgo. Esto sucede cuando promedia las predicciones en diferentes espacios del espacio de entidades de entrada.

En el ensacado, primero tendrá que muestrear los datos de entrada (con reemplazo) para generar múltiples conjuntos de datos de entrada. Para cada uno de esos conjuntos, se ejecuta el mismo predictor de referencia (como un SVM, Neural Net, etc.) para obtener un modelo entrenado para cada conjunto de entrenamiento.

Ahora, para hacer la predicción en una muestra de prueba invisible, se ejecuta a través de estos modelos individuales y las predicciones ahora se promedian para obtener la decisión final.

El ensacado es efectivo porque está mejorando la precisión de un solo modelo mediante el uso de múltiples copias entrenadas en diferentes conjuntos de datos.

No se recomienda el ensacado en modelos que tienen un alto sesgo. En tales casos, se utiliza el refuerzo (Adaboost) que da un paso adelante y elimina el efecto de un alto sesgo presente en el modelo de referencia.

El ensacado es una abreviatura de “agregación de bootstrap”. Es un meta-algoritmo, que toma M submuestras (con reemplazo) del conjunto de datos inicial y entrena el modelo predictivo en esas submuestras. El modelo final se obtiene promediando los modelos “bootstrapped” y generalmente produce mejores resultados.

La principal ventaja de esta técnica es que incorpora la regularización y todo lo que necesita es elegir buenos parámetros para los algoritmos base. El promedio de los modelos lleva a la eliminación (o, al menos, la mejora) de los modelos inestables que pueden producirse a partir de datos sesgados.

vBagging es una técnica que se usa predominantemente con árboles de decisión para reducir la varianza y mantener el sesgo para que sea el mismo.

Como funciona
Digamos que tienes 1000 observaciones y 200 elementos. Un enfoque de embolsado creará varios modelos con un subconjunto de observaciones y un subconjunto de variables. es decir, podría crear 300 árboles con 300 observaciones aleatorias y 20 variables aleatorias en cada árbol. Luego promediaré los resultados de todos los 300 árboles (modelos) para llegar a mi predicción final.

* El ensacado se puede usar con cualquier técnica, pero la mayoría de las veces se usa con el árbol. El bosque aleatorio es un enfoque de embolsado

* Leo Breiman introdujo este enfoque.

* Tenga en cuenta que está reduciendo la variación y aportando estabilidad a sus predicciones al construir varios modelos y luego promediarlos.

¿Por qué funciona el embolsado?
Piense en el problema porque la combinación de heurísticas (reglas básicas) conduce a una decisión mucho mejor.
es decir, por un lado, puede tener heurisitcs (thumbrules) y, por otro lado, tiene una instancia específica muy complicada (dataset de tren). Debe encontrar un equilibrio entre las miniaturas y los detalles específicos con el conjunto de datos del tren. Una forma de encontrar un equilibrio es extraer varias miniaturas del conjunto de datos (mediante la selección de subconjuntos de observaciones y variables) y luego promediar todas estas miniaturas que ha extraído.

Bagging – Bootstrap Aggregation – es un meta-algoritmo de aprendizaje automático.

Digamos que tiene un alumno, por ejemplo, el Árbol de decisión. A menudo puede mejorar su precisión y variación aplicando la técnica Bootstrap.

  1. Genera múltiples muestras de su conjunto de entrenamiento usando el siguiente esquema: toma aleatoriamente un elemento del conjunto de entrenamiento y luego lo devuelve. Por lo tanto, algunos de los elementos del conjunto de entrenamiento se presentarán varias veces en la muestra generada y otros estarán ausentes. Estas muestras deben tener el mismo tamaño que el conjunto de trenes.
  2. Entrena a su alumno en cada muestra generada.
  3. Cuando aplica el algoritmo, simplemente promedia las predicciones de los alumnos en caso de regresión o realiza la votación en caso de clasificación.

La aplicación de bolsas a menudo ayuda a lidiar con el sobreajuste al reducir la variación de predicción.

El ensacado aplicado al Árbol de decisión se llama Bosque aleatorio.

Los factores que están impactando positivamente en el mercado de las máquinas para fabricar bolsas son presionar para comenzar para una fácil operación, excelente combinación de valor, potencia y características ergonómicas, precisión, parada automática, bajo ruido, baja vibración y alta precisión, interruptor de marcha atrás / adelante, excelente repetible torque y certificación CE para beneficios y seguridad adicionales. La industria de máquinas de fabricación de bolsas está creciendo debido a la alta demanda de la bolsa porque la bolsa es el atributo principal para la logística y el transporte, viajar es un factor considerable para el lento crecimiento de la demanda de la bolsa En algunas regiones, el uso de la bolsa de plástico está prohibido para superar la degradación ambiental, por lo que hacen hincapié en la utilización de productos alternativos como la bolsa de cuero, la bolsa de papel y la bolsa de tela. En este tipo de región, una gran oportunidad para invertir en la maquinaria de fabricación de bolsas de papel. La máquina para fabricar bolsas de papel está en tendencia a nivel mundial porque producen productos reciclables y ecológicos.

Solicitar informe [correo electrónico protegido] https: //www.futuremarketinsights

Su modelo es el reflejo de sus datos agrupados con su hipótesis. Por lo tanto, para la precisión del modelo, no solo la hipótesis sino los datos también son igualmente responsables.

GUIÓN
Supongamos que tiene un problema de clasificación binaria con el objetivo sí o no.
Te doy la tarea de aprender todos esos datos y sus respuestas correspondientes son sí o no.
Entonces, si le hago otra pregunta, su varianza es muy alta, lo que significa que debe recordar las preguntas con sí y también con no.
Luego divido los conjuntos de datos en dos partes, una con las respuestas sí y otra con la respuesta no.
Dio esos dos conjuntos de datos a 2 personas diferentes y les pide que aprendan sus preguntas y respuestas.
Dado que el modelo “Sí” nunca ha visto nada con la respuesta “No”, incluso si no fue capaz de clasificar los datos de “Sí” con alta probabilidad, pero puede clasificar los datos de “No” con una probabilidad muy alta porque nunca había visto ese tipo de datos
Ahora para conocer la respuesta en los datos más nuevos, preguntamos a las personas y promediamos los resultados de ambas (en caso de embolsado).

SOLUCIÓN REAL
Este método de dividir y conquistar funciona mejor ya que reduce la varianza y, por lo tanto, incorpora la regularización, pero dado que estamos dividiendo únicamente en base a las tuplas #YES y #NO, aumentamos el sesgo. Por lo tanto, para retener el sesgo, hacemos submuestreo aleatorio y generamos múltiples conjuntos de datos de entrenamiento. De ahora en adelante, entrenar nuestra hipótesis en todos estos sub conjuntos de datos arrojará diferentes modelos, que luego agregaremos en función del promedio de los resultados (en caso de embolsado).

El ensacado es un método muy bueno en el aprendizaje automático. El ensacado tiene como objetivo disminuir la varianza al disminuir el sesgo en sus modelos predictivos. Si disminuye la variación, no necesariamente tiene que aumentar el tamaño de su conjunto de entrenamiento.

Este enlace le proporcionará más información y una mejor comprensión del ensacado: ensacado, refuerzo y apilamiento en el aprendizaje automático

Respuesta rápida y sucia: la agregación de Bootstrap o el ensacado es una técnica de conjunto en la que se entrenan múltiples clasificadores mediante muestreo aleatorio con reemplazo para generar conjuntos de entrenamiento ligeramente diferentes para cada uno (es decir, Bootstraps). Las entradas de prueba se clasifican según la clase mayoritaria predicha por el conjunto. De esta manera, Bagging intenta evitar el sobreajuste y suavizar la variabilidad del conjunto de datos.