¿Qué sucede cuando los conjuntos de datos de entrenamiento y los conjuntos de datos de prueba son los mismos en un proyecto de aprendizaje automático?

Te sugiero que nunca hagas eso. Porque lo que realmente queremos aprender es un modelo que pueda generalizar a los datos de prueba.

Si nos entrenamos en los datos de la prueba, por supuesto, probablemente pueda encajar en los datos con una precisión que podría estar muy cerca. Pero estoy bastante seguro de que puede que no se generalice a los datos nuevos desde el problema de sobreajuste.

Lo que puede hacer es dividir sus datos de entrenamiento en un conjunto de entrenamiento y un conjunto de validación (por ejemplo, 80% y 20%). Entrene a su modelo en el conjunto de entrenamiento y luego ajuste los parámetros en el conjunto de validación. Para obtener el mejor rendimiento en el conjunto de validación, ya que si prueba sus datos en el mismo conjunto de datos de entrenamiento, no puede predecir la precisión de su modelo en los datos que no ha visto antes.

En caso de que no tenga suficientes datos para dividir, la validación cruzada 10 veces puede ayudar en su caso.

Aprendizaje automáticoConjuntos de datos

¿Qué es el LSTM?

¿Cuál es la diferencia entre el análisis factorial exploratorio (EFA) y el análisis factorial confirmatorio (CFA)?

¿Qué significa "las redes neuronales profundas son covariantes para la traducción"?

¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

¿Cómo se puede utilizar el aprendizaje automático para construir un sistema de predicción del comportamiento del cliente?

¿Cuál es la explicación de la causa de la explosión y desaparición del gradiente de red neuronal recurrente RNN?

Si tiene el mismo conjunto de datos de entrenamiento y el conjunto de datos de prueba, no puede obtener el rendimiento preciso de su proyecto ml.

Puedo explicarlo con un ejemplo de la vida real.

Si un maestro le está enseñando matemáticas a un niño. Ella le enseña algunos ejemplos como 1 + 1 = 2, 2 + 2 = 4 y 1 + 3 = 4. Si le hace una prueba a ese niño y le pregunta solo 1 + 1 o 2 + 2 o 1 + 3, él dará la respuesta exacta Con base en esta prueba, ella no puede saber si el niño ha aprendido matemáticas o no. Pero si ella le pregunta 1 + 2, él puede responder mal. Si le pregunta al niño un ejemplo tan diferente que no se incluyó durante la enseñanza, en función del resultado puede decir cuánto ha aprendido el niño.

Esta es la misma historia con ml. Aquí el maestro es un algoritmo de entrenamiento, la ecuación que enseña el maestro es la información de entrenamiento y un niño es su programa ml, la pregunta que se plantea en el examen es la prueba de datos.

Entonces, si tiene datos limitados, divídalos en 3 partes: 60% para capacitación, 20% para validación y 20% para probar el conjunto de datos. Algunas personas lo dividen en un 60% de capacitación y un 40% para el conjunto de datos de validación y prueba. Pero siempre es aconsejable seguir la división 60–20–20 del conjunto de datos.

Allan Jie

Un completo desastre. Su modelo arrojará muy buenos resultados durante las pruebas, pero cuando implemente esto en el mundo real, funcionará muy mal.

Por lo tanto, siempre debe mantener sus datos de prueba separados de los datos del tren, ya que los datos de prueba son representativos del mundo real para su modelo.

Hay un conjunto más llamado conjunto de validación, un subconjunto de datos de entrenamiento, que utiliza para la validación cruzada.

Allan Jie

More Interesting

¿Qué método de aprendizaje profundo es el más adecuado para PNL?

¿Cuáles son algunos de los temas candentes que se están investigando actualmente en la escucha de máquinas / procesamiento de audio?

¿Por qué aprendiste Machine Learning?

¿El aprendizaje automático permitirá a Google detectar contenido falso?

He realizado el curso de aprendizaje automático de Andrew Ng pero no lo he programado. ¿Debo decir que tengo los conocimientos básicos?

¿Es útil R para aprender a investigar en planificación urbana, economía y diseño?

¿Cuál es la diferencia entre el algoritmo LBG y K significa agrupación?

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?

¿Cuáles son algunos documentos similares al trabajo realizado para el Proyecto Tango de Google?