Más datos de entrenamiento = mejor modelo
Más datos de prueba = mejor precisión en los resultados de la prueba
Imagine que su modelo tiene una precisión “verdadera”. Es decir, si tiene un número infinito de ejemplos de prueba, esta es la precisión que obtendrá si prueba su modelo.
- ¿Cuántos datos son suficientes para entrenar un modelo NN profundo?
- ¿Cuáles son algunos ejemplos de inferencia?
- ¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?
- ¿Cuánto tiempo lleva convertirse en experto en aprendizaje automático?
- ¿Cómo es posible optimizar un sistema donde el entorno se modela a través de métodos de aprendizaje automático?
Con un conjunto de entrenamiento más grande, esta verdadera precisión aumenta. Con un conjunto de prueba más grande, obtendrá una mejor estimación de la precisión de su modelo. La forma en que divide los datos depende de la importancia que le dé a estas dos cosas.
60:20:20 es una regla general, pero es una regla con la que no estoy de acuerdo. ¿Realmente le importa que su error de prueba de 5.33% sea realmente 5.35%? Tenga en cuenta que se supone que no debe tomar ninguna decisión basada en eso, ni siquiera la detención anticipada o el ajuste de hiperparámetros. Si no, ¿por qué querría 200,000 ejemplos en su conjunto de prueba si tiene 1 millón de ejemplos en total?
Elegiría la validación y los tamaños de los conjuntos de prueba dependiendo de la precisión que necesite en las pruebas y los errores de validación (por ejemplo, ± 0.05% generalmente es lo suficientemente bueno para aplicaciones prácticas, no concursos), elija la validación y los tamaños de los conjuntos de prueba basados en eso, y dar todo lo demás al conjunto de entrenamiento.
Eso significa que si tengo 1 millón de ejemplos, por ejemplo, lo dividiré 98: 1: 1. Si tengo 10,000, será más como 80:10:10.