En general, hay tres fases para el aprendizaje automático:
1) Capacitación, donde el modelo se ajusta a los datos primarios de capacitación.
2) Validación, donde el modelo está optimizado, utilizando un segundo conjunto de datos de entrenamiento.
- ¿Es c # una buena opción para el aprendizaje automático de producción?
- ¿Cuáles son algunas posibles aplicaciones de aprendizaje profundo que son bastante novedosas?
- ¿Cómo se explica el aprendizaje automático y la inteligencia artificial a un niño de 5 años?
- ¿Cuál es la diferencia entre neurociencia, neurobiología, neuroingeniería y neuropsicología?
- ¿Cuál es el mejor marco de aprendizaje profundo que puedo usar para clasificar las imágenes de resonancia magnética? ¿Keras es adecuado para eso?
3) Pruebas, donde el modelo final se evalúa utilizando datos de prueba.
Las fases 1 y 2 son parte del proceso de aprendizaje (fase de desarrollo, por lo tanto, “desarrollo”), donde el modelo cambia y mejora. En la fase 3, el aprendizaje y el desarrollo han terminado; El modelo no cambia durante las pruebas.
Sospecho que el uso del término ‘validación’ en el aprendizaje automático proviene de la validez de las estadísticas (estadísticas): Wikipedia, donde no es un término estricto, pero todavía surge a veces (por ejemplo, ‘validación cruzada’ se refiere a datos de partición de datos para las fases de tren y prueba) . En mi humilde opinión, el campo de ML ha cooptado el término “validación” de forma ambigua y disfuncional. Con suerte, la palabra caerá en desgracia y desaparecerá a medida que el ML madure.
Idealmente, ‘entrenar’ se referirá a la evaluación del modelo usando solo datos de entrenamiento, y ‘evaluar’ a la evaluación usando solo datos de prueba. Luego, durante la fase de entrenamiento 2, el refinamiento del modelo, en lugar de ‘validar’, usaría alguna variación en la palabra ‘entrenar’ (o tal vez ‘refinar’), minimizando así la ambigüedad.