¿El sobreajuste en un conjunto de datos implica que el modelo realmente puede aprender y generalizar sobre ese conjunto de datos, pero desafortunadamente demasiado entrenado?

Lo primero que debe hacer es buscar la definición de sobreajuste. El sobreajuste generalmente se refiere cuando el error de entrenamiento es bajo, pero el error de generalización es alto. En la práctica, puede medir esto generalmente comprobando el error de tren de su modelo y el error de prueba de su modelo. Si la diferencia entre ellos es realmente alta, tu sobreajuste. Si el valor absoluto de ambos es realmente alto, entonces es probable que tenga un ajuste insuficiente. No olvide que la falta de equipamiento también es una cosa y puede ser causada por hacer que un modelo sea simple en un intento honesto de generalizar mejor.

Para responder a su pregunta más directamente más allá de los conceptos erróneos obvios, no, lo más probable es que no haya “desafortunadamente” sobreentrenado, especialmente si el modelo puede entrenarse en un solo paso y tiene una solución única (como mínimos cuadrados). La detención temprana existe, pero si no conoce la definición de sobreajuste, hablar de la detención temprana parece inapropiado. Una cosa a la vez.

¿Qué podríamos hacer con Asimo si la computadora dentro estuviera con el poder de la caja de aprendizaje profundo Nvidia DGX-1?

¿Cuáles son algunos de los problemas abiertos más importantes en el aprendizaje automático en este momento?

¿Debo memorizar las matemáticas y los algoritmos al aprender el aprendizaje automático y el aprendizaje profundo?

Cómo elegir el mejor kit de desarrollador de sistemas integrados para el proyecto My Image Processing y Machine Learning

¿Cuál es el número de elementos comunes en dos conjuntos de permutación?

¿Va a sobrevivir la plataforma Azure de Microsoft?

“Generalizar” significa más allá del conjunto de datos, a cosas que el modelo no ha visto antes.

“Generalizar en ese conjunto de datos” no tiene mucho sentido.

Sí, significa que el modelo ha aprendido el conjunto de datos, hasta el punto de que está viendo patrones específicos del muestreo que creó el conjunto de datos (ruido), que generalmente no es aplicable.

P.ej. Si intenta entrenar un modelo para clasificar si un número es un múltiplo de 3 basado en este conjunto de datos,

3 – sí, 9 – sí, 15 – sí, 21 – sí

2 – no, 4 – no, 8 – no, 16 – no

Puede aprender incorrectamente que el patrón es “no para par, sí para impar”, lo que no generaliza. Simplemente aprendió una “coincidencia” en el conjunto de datos.

Puede o no ser debido a un entrenamiento excesivo. Hay muchas razones posibles para el sobreajuste.

Brando Miranda

Sí, el sobreajuste significa que el modelo puede aprender sobre ese conjunto de datos. Pero, no significa que pueda generalizar sobre eso. El sobreajuste generalmente significa que el modelo ha aprendido demasiado en el conjunto de datos, incluso el patrón que ni siquiera se supone que debe aprender para ese conjunto de datos en particular. Si aplica una información de prueba para ese modelo de sobreajuste, entonces probablemente no pueda generalizarse en esa información de prueba. Probablemente porque ha aprendido demasiado sobre los datos de entrenamiento y depende más de los datos de entrenamiento solamente.

Brando Miranda

More Interesting

Como principiante, ¿dónde y cómo aprendo a implementar algoritmos difíciles de aprendizaje profundo y otras técnicas similares en los lenguajes OOP?

¿Hay alguna manera de extraer la función subyacente de una red neuronal entrenada?

¿Qué redes neuronales se han diseñado para leer los labios?

¿Qué áreas del aprendizaje automático son más importantes para los fondos de cobertura y los bancos de inversión (en equipos cuantitativos)?

¿Cuáles son las 3 mejores GPU, independientemente del precio del aprendizaje profundo, especialmente si necesitamos mucha RAM de GPU, así como cálculos de alto rendimiento / velocidad?

¿Es obligatorio aprender el lenguaje R para el aprendizaje automático o Python es suficiente?

¿Se puede utilizar el aprendizaje automático para generar mapas de forma orgánica con solo usar datos de satélite de Google?

¿Cómo se deriva la fórmula lagrangiana para resolver la máquina de vectores de soporte?

¿Qué son los hiperparámetros en el aprendizaje automático?

¿Cómo cambiará el aprendizaje automático la sociología?