En el aprendizaje automático, ¿por qué utilizamos un tercio de los datos para las pruebas y dos tercios para la capacitación? ¿Es sentido común o hay una razón científica?

Desafortunadamente, todas las respuestas, excepto las de Shehroz Khan, no dan la imagen correcta.

Medir la eficiencia del Algoritmo ML es un problema muy centrado en los datos. Siempre que tenga suficientes datos para enseñarle la diferencia de su clasificador entre clases, no importa que sea 2: 1 o 3: 1 o 10: 1. He visto problemas de Kaggle con el conjunto de pruebas cinco veces más grande que el conjunto de entrenamiento.

Si tiene un conjunto de datos muy limitado, puede replicar a la regla 2: 1 para permitir que su clasificador aprenda más puntos de datos. Pero esa no es la forma correcta de hacerlo. Debe usar técnicas de CV como K-Fold. Algunos trabajos de investigación utilizan métodos de clasificación Leave-few-out para obtener una imagen más precisa de las habilidades del clasificador.

Comprenda que si bien la relación puede ayudarlo a obtener una mejor puntuación, eso no significa que su clasificador funcione mejor, en general en un nuevo conjunto de datos.

Related Content

¿Qué universidades ofrecen cursos de ciencias de datos en línea?

Como desarrollador de software interesado en Data Science y Machine Learning, ¿cómo comienzo a aprender Python y qué camino de aprendizaje sigo?

Buscando datos de atención médica en los Estados Unidos en los últimos diez años. ¿Alguna sugerencia conocida o fuentes de datos?

Soy un desarrollador de Ruby on Rails. ¿Cómo hago una transición a un rol de Data Scientist?

¿Cómo aprendo minería de datos en un mes?

¿En qué casos un análisis causal es más apropiado para una empresa o departamento de investigación que el modelo predictivo?

¿Qué cursos universitarios debo tomar si quiero entender todo sobre el hardware de una computadora?

No hay una regla que diga usar 2/3 para aprender y 1/3 para probar … Lo que estás indicando es una validación cruzada K-fold, si eliges K = 3 se convierte en el caso que mencionaste.
Esta es una técnica para la prueba, la idea general para CV es utilizar todas las instancias para el entrenamiento y todas las instancias para la prueba. El objetivo principal es reducir el sobreajuste en el algoritmo de clasificación.

Shivam Mani Tripathi

Es una cosa religiosa. No hay una respuesta “verdadera” real.

2: 1, 70:30 o proporción áurea es lo que he encontrado hasta ahora.

Shehroz Khan

More Interesting

¿Debo aprender R y Python para Data Science y luego dominar uno de ellos?

¿Cómo es trabajar en un equipo de ciencia de datos de detección de fraude?

¿Cuándo salió el término Big Data y cómo difiere de los datos normales?

¿Es posible aprender el aprendizaje automático y la ciencia de datos a través de MOOCS y otras fuentes en línea o debería estudiar una maestría en CS?

¿De qué sirve Big Data, si los datos están tan desestructurados?

¿Qué podemos hacer después de aprender el lenguaje R?

¿Hay personas de Física y Química Computacional que realizan Ciencia de Datos en la industria?

¿Cómo aportamos el tipo de credibilidad a nuestra implementación y análisis de big data que disfrutan las prácticas tradicionales de gestión de la información basadas en modelos canónicos?

¿Qué es el marco de Big Data?

¿Orientación profesional para personas de 25 años de edad con inclinación cuantitativa con datos / habilidades de programación?

¿Es Big Data todo sobre sistemas distribuidos?

¿Qué libro o curso en línea sería el mejor para aprender estadísticas para la ciencia de datos?

Cómo implementar Data Compression + Denoising usando Machine Learning

¿Con qué lenguaje de programación debo comenzar para la ciencia de datos, considerando que soy nuevo en ambos?

¿Qué especialización en ciencia de datos es mejor, la de edX o Coursera?

Web Analytics