En el aprendizaje automático, ¿por qué utilizamos un tercio de los datos para las pruebas y dos tercios para la capacitación? ¿Es sentido común o hay una razón científica?

Desafortunadamente, todas las respuestas, excepto las de Shehroz Khan, no dan la imagen correcta.

Medir la eficiencia del Algoritmo ML es un problema muy centrado en los datos. Siempre que tenga suficientes datos para enseñarle la diferencia de su clasificador entre clases, no importa que sea 2: 1 o 3: 1 o 10: 1. He visto problemas de Kaggle con el conjunto de pruebas cinco veces más grande que el conjunto de entrenamiento.

Si tiene un conjunto de datos muy limitado, puede replicar a la regla 2: 1 para permitir que su clasificador aprenda más puntos de datos. Pero esa no es la forma correcta de hacerlo. Debe usar técnicas de CV como K-Fold. Algunos trabajos de investigación utilizan métodos de clasificación Leave-few-out para obtener una imagen más precisa de las habilidades del clasificador.

Comprenda que si bien la relación puede ayudarlo a obtener una mejor puntuación, eso no significa que su clasificador funcione mejor, en general en un nuevo conjunto de datos.

No hay una regla que diga usar 2/3 para aprender y 1/3 para probar … Lo que estás indicando es una validación cruzada K-fold, si eliges K = 3 se convierte en el caso que mencionaste.
Esta es una técnica para la prueba, la idea general para CV es utilizar todas las instancias para el entrenamiento y todas las instancias para la prueba. El objetivo principal es reducir el sobreajuste en el algoritmo de clasificación.

Es una cosa religiosa. No hay una respuesta “verdadera” real.

2: 1, 70:30 o proporción áurea es lo que he encontrado hasta ahora.