Desafortunadamente, todas las respuestas, excepto las de Shehroz Khan, no dan la imagen correcta.
Medir la eficiencia del Algoritmo ML es un problema muy centrado en los datos. Siempre que tenga suficientes datos para enseñarle la diferencia de su clasificador entre clases, no importa que sea 2: 1 o 3: 1 o 10: 1. He visto problemas de Kaggle con el conjunto de pruebas cinco veces más grande que el conjunto de entrenamiento.
Si tiene un conjunto de datos muy limitado, puede replicar a la regla 2: 1 para permitir que su clasificador aprenda más puntos de datos. Pero esa no es la forma correcta de hacerlo. Debe usar técnicas de CV como K-Fold. Algunos trabajos de investigación utilizan métodos de clasificación Leave-few-out para obtener una imagen más precisa de las habilidades del clasificador.
- ¿Es bueno aprender a almacenar datos?
- ¿Cuál de los siguientes 2 cursos en la India es mejor para una carrera en ciencia de datos, Udacity o Courseera?
- ¿Qué ejercicio debo dar a mis alumnos en un curso de Big Data?
- ¿Está bien incluir una variable no significativa en un modelo lineal generalizado (GLM)?
- ¿Desde dónde debería comenzar para aprender el desarrollo de big data?
Comprenda que si bien la relación puede ayudarlo a obtener una mejor puntuación, eso no significa que su clasificador funcione mejor, en general en un nuevo conjunto de datos.