¿Qué es el remuestreo en el aprendizaje automático?

El nuevo muestreo es una serie de métodos utilizados para reconstruir sus conjuntos de datos de muestra, incluidos los conjuntos de capacitación y los conjuntos de validación. Puede proporcionar conjuntos de muestras diferentes más “útiles” para el proceso de aprendizaje de alguna manera.

Por ejemplo, en Algoritmo de bosque aleatorio, podemos suponer que solo tenemos un conjunto de entrenamiento [math] \ cal {D} [/ math] con [math] N [/ math] muestras en él, y ahora necesitamos construir [ árboles de decisión de matemática] T [/ matemática] iterando el proceso de aprendizaje por [matemática] T [/ matemática] veces. Para cada iteración, el conjunto de entrenamiento debe ser diferente, de lo contrario, se producirán [math] T [/ math] árboles de decisión idénticos. En ese momento, se puede aplicar el método Bootstrap (un tipo de método de remuestreo), en el que las muestras [matemáticas] N ‘[/ matemáticas] (puede haber algunas idénticas) se seleccionan aleatoriamente de las [matemáticas] N [/ matemáticas]. Entonces podemos obtener [math] T [/ math] diferentes árboles de decisión, la función de clasificación final es la agregación de estos árboles. La agregación de diferentes árboles que aprenden de conjuntos de entrenamiento de muestreo por separado puede lograr una mayor precisión y evitar el sobreajuste en cierta medida.

Por supuesto, el ejemplo anterior es solo una aplicación típica de re-muestreo. El método de remuestreo también se puede utilizar para la validación y tener otros métodos de implementación. En resumen, proporciona suficientes datos que necesitamos y mantiene los datos confiables al mismo tiempo.

Dividimos nuestros datos originales en conjuntos de entrenamiento y pruebas. Después de encontrar los coeficientes adecuados para el modelo con la ayuda del conjunto de entrenamiento, aplicamos ese modelo en el conjunto de prueba y encontramos la precisión del modelo. Esta es la precisión final antes de aplicarla a datos desconocidos. Y más es esta precisión final, mayor es la esperanza de obtener resultados precisos en datos desconocidos.

Sin embargo, si dividimos aún más el conjunto de entrenamiento en sus subconjuntos de entrenamiento y prueba y luego calculamos la precisión final de ese subconjunto y hacemos esto repetidamente para muchos subconjuntos, entonces elegimos los coeficientes (modelo) que nos dan la máxima precisión entre estos subconjuntos, y esperamos que este modelo dará la máxima precisión al conjunto de prueba final.

El remuestreo se realiza para mejorar la precisión del modelo.

Hay diferentes formas de volver a muestrear datos como bootstrapping, validación cruzada, validación cruzada repetida, etc.