La agregación de bolsas o bootstrap es uno de los algoritmos utilizados en el aprendizaje conjunto.
Los métodos / aprendizaje en conjunto se refieren al enfoque de aplicar o usar múltiples algoritmos para lograr un mejor desempeño predictivo / de clasificación. La similitud subyacente entre el embolsado y otros algoritmos de aprendizaje en conjunto es que recopilan varios algoritmos o clasificadores , los presentan con datos, hacen que cada uno clasifique los datos y finalmente hacen que el algoritmo del conjunto tome el voto ponderado de todas las predicciones o clasificaciones de los algoritmos / clasificadores.
Por lo tanto, el empaquetamiento es posiblemente uno de los algoritmos basados en conjuntos más simples e intuitivos, se basa en el proceso de obtener réplicas del conjunto de datos de entrenamiento y entrenar a los clasificadores en estas réplicas. Así que esencialmente
- Se obtienen al azar diferentes subconjuntos de datos de entrenamiento de todo el conjunto de datos de entrenamiento (con reemplazo *).
- Cada subconjunto de datos de entrenamiento se usa para entrenar un clasificador diferente.
- Luego, los clasificadores individuales se combinan mediante un voto mayoritario simple de sus decisiones, donde el voto mayoritario elegido da como resultado la decisión del conjunto.
* El proceso de reemplazo es de donde proviene el término “bootstrapping”, ya que esto se refiere a una muestra de bootstrap . Esencialmente, todo el proceso depende de la idea de que se puede obtener una inferencia, un rasgo medible o una conclusión sobre una población a partir de los datos de la muestra, que se puede modelar mediante el muestreo de los datos de la muestra. Donde en el caso del aprendizaje en conjunto, los rasgos medibles o la inferencia son las predicciones o clasificaciones determinadas por cada clasificador.
Entonces, un ejemplo serían las alturas en una población. Tome una población suficientemente grande de tamaño N, lo suficientemente grande como para asegurar que cualquier forma de muestreo y remuestreo (bootstrapping) de la población no resulte repetidamente en superposiciones sustanciales. De la población, muestree un subconjunto del mismo, entrene a un clasificador en esta muestra de subconjunto, vuelva a muestrear la población reemplazando las alturas de las personas en el subconjunto anterior por las nuevas alturas de las personas de la población, y entrene nuevamente. Repita este proceso para todos los clasificadores en el conjunto con diferentes muestras de subconjuntos. Finalmente, cada clasificador debe determinar su propio rasgo medio o medible con respecto a las alturas de las personas en la población. El algoritmo del conjunto determina entonces qué significa este rasgo medio o medible al considerar la clasificación mayoritaria determinada por los clasificadores que componen el conjunto.