¿Cuál es la diferencia entre un conjunto de entrenamiento y un conjunto de prueba?

El conjunto de entrenamiento debe estar separado del conjunto de prueba. La fase de entrenamiento consume el conjunto de entrenamiento, como lo han señalado otros, para encontrar un conjunto de valores de parámetros que minimicen una determinada función de costo en todo el conjunto de entrenamiento.

Mientras que el conjunto de prueba es para probar el modelo para verificar cómo funciona en nuevas versiones invisibles de las mismas clases. Al igual que en MNIST, puede usar todos los ejemplos de entrenamiento de 60k para entrenar un modelo. Luego, para determinar la precisión real del modelo, ejecute el modelo entrenado en el conjunto de prueba de 10k.

Entonces, si el modelo logra una precisión del 100% en el conjunto de entrenamiento, eso no significa que sea 100% preciso. Puede deberse a un sobreajuste, ruido de modelado o simplemente memorización. Por lo tanto, el conjunto de prueba que tiene las mismas clases pero con algunas condiciones variables, dará un mejor indicador de la capacidad de generalizar o la precisión real que uno espera del modelo en un entorno del mundo real. Por lo tanto, un modelo que alcanza un 99,5% de precisión en el conjunto de prueba, tiene una buena capacidad de generalización y, por lo tanto, se espera que funcione igual de bien en otros ejemplos invisibles.

Puede dividir aún más el conjunto de entrenamiento en dos conjuntos, el conjunto de entrenamiento y el conjunto de validación. Digamos 50k de entrenamiento y 10k de validación. El conjunto de validación ayuda a encontrar un punto donde detener el entrenamiento, especialmente cuando la precisión del entrenamiento sigue disminuyendo mientras el error de validación comienza a aumentar, esto indica un sobreajuste.

Espero que esto ayude.

Al realizar el aprendizaje automático, el conjunto de datos se divide en tres subconjuntos para la capacitación, el ajuste y las pruebas del modelo predictivo.

El conjunto de entrenamiento es un conjunto de ejemplos que se extraen aleatoriamente (suponiendo una distribución independiente e idéntica) del conjunto de datos con el propósito de entrenar el modelo.

El conjunto de ajuste / validación es un segundo conjunto de ejemplos extraídos del conjunto de datos y reservados para ajustar los parámetros de los clasificadores. Es decir, es un conjunto de datos en el que el modelo se puede ‘validar’ mientras se ajustan los parámetros, sin usar ninguno de los datos de prueba. Al probar sus diversos algoritmos y parámetros en el conjunto de ajuste, puede elegir el modelo entrenado con el mejor rendimiento para ser evaluado por el conjunto de prueba.

El conjunto de prueba es un conjunto de ejemplos extraídos del conjunto de datos con el fin de evaluar el rendimiento del modelo. Esto se mantiene separado de los datos de entrenamiento y ajuste, y no se puede usar en las etapas de entrenamiento o ajuste del proceso de aprendizaje. Hacerlo solo sesgaría el modelo a los datos y afectaría el rendimiento.

Los datos de entrenamiento son el conjunto de datos en el que entrena el modelo o puede decir los datos de los cuales el modelo ha aprendido las experiencias, mientras que los datos de prueba son los datos que se utilizan para verificar si el modelo ha aprendido lo suficientemente bien de las experiencias que obtuvo. en el conjunto de datos del tren.

Para saber cómo funciona en la práctica en python o R, puede seguir aquí:

Regresión logística usando python

Conjunto de entrenamiento: un conjunto de ejemplos utilizados para el aprendizaje: para ajustarse a los parámetros del clasificador En el caso de MLP, usaríamos el conjunto de entrenamiento para encontrar los pesos “óptimos” con la regla de respaldo
Conjunto de validación: un conjunto de ejemplos utilizados para ajustar los parámetros de un clasificador En el caso de MLP, utilizaríamos el conjunto de validación para encontrar el número “óptimo” de unidades ocultas o determinar un punto de parada para el algoritmo de propagación inversa
Conjunto de prueba: un conjunto de ejemplos utilizados solo para evaluar el rendimiento de un clasificador completamente entrenado. En el caso de MLP, usaríamos la prueba para estimar la tasa de error después de haber elegido el modelo final (tamaño de MLP y pesos reales) Después de evaluar el modelo final en el conjunto de prueba, ¡NO DEBE ajustar el modelo más!
¿Por qué separar los conjuntos de prueba y validación? La estimación de la tasa de error del modelo final en los datos de validación estará sesgada (más pequeña que la tasa de error real) ya que el conjunto de validación se usa para seleccionar el modelo final Después de evaluar el modelo final en el conjunto de prueba, NO DEBE ajustar el modelo. ¡promover!