¿Qué sucede cuando los conjuntos de datos de entrenamiento y los conjuntos de datos de prueba son los mismos en un proyecto de aprendizaje automático?

Te sugiero que nunca hagas eso. Porque lo que realmente queremos aprender es un modelo que pueda generalizar a los datos de prueba.

Si nos entrenamos en los datos de la prueba, por supuesto, probablemente pueda encajar en los datos con una precisión que podría estar muy cerca. Pero estoy bastante seguro de que puede que no se generalice a los datos nuevos desde el problema de sobreajuste.

Lo que puede hacer es dividir sus datos de entrenamiento en un conjunto de entrenamiento y un conjunto de validación (por ejemplo, 80% y 20%). Entrene a su modelo en el conjunto de entrenamiento y luego ajuste los parámetros en el conjunto de validación. Para obtener el mejor rendimiento en el conjunto de validación, ya que si prueba sus datos en el mismo conjunto de datos de entrenamiento, no puede predecir la precisión de su modelo en los datos que no ha visto antes.

En caso de que no tenga suficientes datos para dividir, la validación cruzada 10 veces puede ayudar en su caso.

Si tiene el mismo conjunto de datos de entrenamiento y el conjunto de datos de prueba, no puede obtener el rendimiento preciso de su proyecto ml.

Puedo explicarlo con un ejemplo de la vida real.

Si un maestro le está enseñando matemáticas a un niño. Ella le enseña algunos ejemplos como 1 + 1 = 2, 2 + 2 = 4 y 1 + 3 = 4. Si le hace una prueba a ese niño y le pregunta solo 1 + 1 o 2 + 2 o 1 + 3, él dará la respuesta exacta Con base en esta prueba, ella no puede saber si el niño ha aprendido matemáticas o no. Pero si ella le pregunta 1 + 2, él puede responder mal. Si le pregunta al niño un ejemplo tan diferente que no se incluyó durante la enseñanza, en función del resultado puede decir cuánto ha aprendido el niño.

Esta es la misma historia con ml. Aquí el maestro es un algoritmo de entrenamiento, la ecuación que enseña el maestro es la información de entrenamiento y un niño es su programa ml, la pregunta que se plantea en el examen es la prueba de datos.

Entonces, si tiene datos limitados, divídalos en 3 partes: 60% para capacitación, 20% para validación y 20% para probar el conjunto de datos. Algunas personas lo dividen en un 60% de capacitación y un 40% para el conjunto de datos de validación y prueba. Pero siempre es aconsejable seguir la división 60–20–20 del conjunto de datos.

Un completo desastre. Su modelo arrojará muy buenos resultados durante las pruebas, pero cuando implemente esto en el mundo real, funcionará muy mal.

Por lo tanto, siempre debe mantener sus datos de prueba separados de los datos del tren, ya que los datos de prueba son representativos del mundo real para su modelo.

Hay un conjunto más llamado conjunto de validación, un subconjunto de datos de entrenamiento, que utiliza para la validación cruzada.