Cómo saber cuántos datos debo entrenar mi algoritmo de Machine Learning y cuánto debo usar para garantizar el principio de generalización

En la práctica, es mejor usar la validación cruzada k-fold en lugar de dividir su conjunto de datos en partes de capacitación y validación.

En k-fold cross-validation , divide su conjunto de datos en k partes del mismo tamaño, luego recorre las k partes; en cada iteración, mantiene la parte en la que se encuentra como un conjunto de validación y entrena su modelo en las partes k – 1 restantes. Finalmente, toma la media de los k errores de prueba como una estimación del error de generalización. Este enfoque produce una estimación mucho mejor con una varianza mucho menor que el enfoque dividido de validación de tren único. Empíricamente, se demostró que k = 5 o k = 10 producen las mejores estimaciones.

Si está decidido a utilizar el enfoque dividido de validación de trenes, las relaciones de división comúnmente utilizadas son 80/20 o 70/30; eso es 80% (o 70%) para los datos de entrenamiento y 20% (o 30%) para los datos de validación.