¿Cómo detectamos el sobreajuste y la falta de ajuste en Machine Learning?

Cuando el modelo es mucho mejor en el conjunto de entrenamiento que en el conjunto de validación, memoriza ejemplos de entrenamiento individuales hasta cierto punto. De esa forma, puede predecir muy bien sus datos de entrenamiento, pero no se generaliza al problema real y, por lo tanto, falla en ejemplos no vistos. Ajustar los datos de entrenamiento demasiado bien se conoce como sobreajuste. Hay algunas cosas que puede intentar para evitar esto:

  • Más datos Con millones de ejemplos de entrenamiento, es muy poco probable que su modelo se sobreajuste. Tendría que memorizar demasiados ejemplos de entrenamiento para disminuir significativamente la pérdida de entrenamiento. Además, está mostrando el mismo ejemplo solo muy pocas veces, porque hay suficientes otros datos.
  • Modelo más pequeño. Un modelo menos potente podría no ser capaz de memorizar muchos ejemplos de entrenamiento, pero podría ser lo suficientemente bueno como para resolver su tarea. Si usa una red neuronal, pruebe con capas más pequeñas y menos.
  • Regularización La regularización es una forma de codificar nuestros supuestos anteriores de la tarea en la tarea. Por ejemplo, podemos penalizar grandes pesos en una red neuronal porque creemos que resultan en soluciones demasiado complejas.

También preguntaste sobre la falta de equipamiento, donde tu modelo no se ajusta suficientemente bien a los datos de entrenamiento. En ese caso, tanto la pérdida de entrenamiento como la pérdida de validación son similares, pero pobres. Su modelo aprendió cosas razonables para que se generalicen a los datos de validación, pero eso no es suficiente para resolver la tarea.

Puede usar los métodos opuestos aquí: haga que su modelo sea más potente y use menos regularización. Simplemente no debería usar menos datos, aunque eso simplificaría la tarea, ya que no se generalizaría tan bien en el mundo real.

Sobreajuste Esta parte (el extremo derecho del gráfico) de la curva de entrenamiento vs. validación muestra que el error de validación (en rojo) deja de reducirse (en lugar de aumentar), pero el entrenamiento sigue bajando.

En general, encontrar el modelo mejor ajustado es difícil. La mayoría de los modelos están mal equipados o sobreajustados. Un modelo que no está bien ajustado no habría aprendido bien la distribución de los puntos y tendrá un error de entrenamiento incorrecto. A medida que intentamos que aprenda mejor, debemos tener cuidado de no sobreajustar (es decir, cuando probamos el modelo en un conjunto de validación independiente, el modelo no mejora). Eso significa que esto va a hacer bien en el mundo real.

Un buen enfoque es utilizar la validación cruzada. Una de las técnicas de validación cruzada se llama validación cruzada k-fold. Esto divide los datos en k conjuntos. Esto predice 1 conjunto basado en conjuntos (k-1) y lo hace iterativamente sobre todos los conjuntos k. De esa manera, puede concentrarse en mejorar la precisión de su modelo tanto como sea posible (3.1. Validación cruzada: evaluación del rendimiento del estimador, Validación cruzada (estadísticas) | Wikiwand). Mantendrá un control sobre el ajuste excesivo.

En aprendizaje profundo,

Cuando se usa para entrenar el modelo, recolecte datos más relevantes;

Observe la tasa de error cuadrática media variando el número de nodos y las capas ocultas en el modelo.

Por ejemplo: ejemplos de observaciones del conjunto de datos

(Nodos, capas ocultas, error cuadrático medio)

(1, 200, 5.6)

(1, 350, 5.0)

(2, 350, 4.8)

(3, 400, 4.6)

(4, 400, 4.4)

(6, 400, 4.6)

Predecir que el valor de ajuste correcto es (5, 400, 4.5)

Underfitting: 4 nodos con 400 capas ocultas que proporcionan un valor de error cuadrático medio de 4.4

Sobreajuste : 6 nodos con 400 capas ocultas dan 4.6 error cuadrático medio

Respuesta corta: compensación de sesgo-varianza. Si su modelo tiene un alto sesgo, entonces es poco adecuado, si tiene una gran varianza, está sobreajustado. Puede obtener más información de la conferencia de Andrew Ng.

Sabr

El ajuste insuficiente es que su costo de capacitación no puede bajar más, eso se debe a que su modelo no es lo suficientemente grande como para capturar todas las características principales de los datos de capacitación. subiendo continuamente. Esto se debe a que su modelo es tan grande que captura todas las características innecesarias de los datos de entrenamiento y no puede generalizarse bien.

No estoy seguro de si puede hacerlo utilizando cualquier tipo de enfoque automatizado que sea válido en diferentes tipos de algoritmos de aprendizaje automático: clasificación, regresión, máquina de vectores de soporte, etc. Si existiera tal cosa, siempre obtendríamos un algoritmo casi perfecto, un modelo de predicción casi perfecto, reconocimiento de imágenes, etc., que sabemos que todavía no estamos allí.

Error de prueba, validación de resultados como un paso separado utilizando algún tipo de automatización, como la minimización del error RMS. Puede que me falte algo aquí, en cuyo caso no dude en elaborar su pregunta.

Tomemos un ejemplo de k-nn:

una de las reglas generales es

si el error de entrenamiento es alto y el error de validación cruzada también es alto, no es adecuado

Si el error de entrenamiento es bajo y el error de validación cruzada es alto, entonces está demasiado en forma.

Fuente: Curso de IA aplicada: es una gran plataforma para cursos en línea de Machine Learning

El sobreajuste es cuando la pérdida de entrenamiento disminuye mientras que la pérdida de validación aumenta.

La falta de ajuste es cuando no estás aprendiendo lo suficiente durante la fase de entrenamiento (por ejemplo, deteniendo el aprendizaje demasiado temprano).

La diferencia entre su pérdida de entrenamiento y la pérdida de validación aquí puede explicarse por una distribución ligeramente diferente entre su conjunto de entrenamiento y validación. También es posible que su modelo no haya encontrado las reglas generales.

More Interesting

¿Cuál es el mapa de ruta para un chico universitario para una carrera de aprendizaje automático y competir en Kaggle?

¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?

¿Cuál es una explicación intuitiva de las expectativas de la correlación Radamacher?

¿Cuál es el papel de la informática en el aprendizaje automático?

Cómo optimizar la clasificación de varias clases si ya conozco el número de ocurrencias de cada clase en el conjunto de datos de prueba

¿Cuál es el potencial de las redes neuronales en la compresión de datos?

¿Cuáles son algunas formas de preprocesar imágenes antes de aplicar redes neuronales convolucionales para la tarea de clasificación de imágenes?

¿Cuáles son las desventajas de [math] abs (x) [/ math] como función de activación en redes neuronales?

Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?

En los algoritmos de aprendizaje automático, ¿por qué la función sigmoidea se usa principalmente y no funciones como tanh (x)? En tanhx por ej. parece dividir el eje y de manera uniforme y aplanarse rápidamente a medida que x se aproxima a +/- infinito. El rango es: sigmoide [0-1] y tanh (x) [-1,1].

Tengo una entrevista telefónica técnica para una pasantía la próxima semana con el aprendizaje automático y el equipo de fraude de Uber. ¿Debo esperar DS y algoritmos generales o algo más?

¿El aprendizaje automático es un comienzo de invasión de estadísticas?

¿TF-IDF está categorizado como una selección de características o una extracción de características?

¿Un descenso de gradiente funciona en Big Data?

¿Cuál es la forma completa de AUC en el estado de AUC de los resultados del examen AKTU?