Interpretación gráfica de sesgo – varianza.
Comprendamos esta imagen. Este es el diagrama de ojo de buey. Suponga que el centro del objetivo (color rojo) es un modelo que predice perfectamente los valores correctos. A medida que nos alejamos del ojo del toro, nuestra predicción empeora. Imagina que podemos repetir todo nuestro proceso de construcción de modelos para obtener una cantidad de golpes por separado en el objetivo. Cada golpe representa una realización individual de nuestro modelo, dada la variabilidad casual en los datos de entrenamiento que recopilamos. A veces obtendremos una buena distribución de los datos de entrenamiento, por lo que pronosticamos muy bien y estamos cerca de la diana, mientras que a veces nuestros datos de entrenamiento pueden estar llenos de valores atípicos o no estándar que resultan en predicciones más pobres. Estas diferentes realizaciones dan como resultado una dispersión de golpes en el objetivo.
Veamos la definición de sesgo y varianza:
Sesgo : sesgo significa cuán lejos están nuestras predicciones de los valores reales. En general, los algoritmos paramétricos tienen un alto sesgo, lo que los hace rápidos de aprender y fáciles de entender, pero generalmente menos flexibles. A su vez, tienen un rendimiento predictivo más bajo en problemas complejos que no cumplen con los supuestos simplificadores del sesgo de los algoritmos.
- Bajo sesgo : sugiere más suposiciones sobre la forma de la función objetivo.
- Alto sesgo : sugiere menos suposiciones sobre la forma de la función objetivo.
Los ejemplos de algoritmos de aprendizaje automático de bajo sesgo incluyen: árboles de decisión, vecinos más cercanos k y máquinas de vectores de soporte.
Los ejemplos de algoritmos de aprendizaje automático de alto sesgo incluyen: Regresión lineal, Análisis discriminante lineal y Regresión logística.
Varianza : cambio en las predicciones en diferentes conjuntos de datos. Nuevamente, imagine que puede repetir todo el proceso de construcción del modelo varias veces. La variación es cuánto varían las predicciones para un punto dado entre diferentes realizaciones del modelo. En otras palabras,
La variación es la cantidad que la estimación de la función objetivo cambiará si se utilizan diferentes datos de entrenamiento.
La función objetivo se estima a partir de los datos de entrenamiento mediante un algoritmo de aprendizaje automático, por lo que deberíamos esperar que el algoritmo tenga alguna variación. Idealmente, no debería cambiar demasiado de un conjunto de datos de entrenamiento al siguiente, lo que significa que el algoritmo es bueno para seleccionar el mapeo subyacente oculto entre las entradas y las variables de salida.
Los algoritmos de aprendizaje automático que tienen una gran variación están fuertemente influenciados por los detalles de los datos de entrenamiento. Esto significa que los detalles del entrenamiento influyen en el número y los tipos de parámetros utilizados para caracterizar la función de mapeo.
- Variación baja : sugiere pequeños cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento.
- Alta variación : sugiere grandes cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento.
En general, los algoritmos de aprendizaje automático no paramétricos que tienen mucha flexibilidad tienen una gran variación. Por ejemplo, los árboles de decisión tienen una gran variación, que es aún mayor si los árboles no se podan antes de su uso.
Los ejemplos de algoritmos de aprendizaje automático de baja varianza incluyen: Regresión lineal, Análisis discriminante lineal y Regresión logística.
Los ejemplos de algoritmos de aprendizaje automático de alta varianza incluyen: árboles de decisión, vecinos más cercanos k y máquinas de vectores de soporte.
Comprender el ajuste excesivo o insuficiente
En su raíz, lidiar con el sesgo y la varianza se trata realmente de lidiar con un ajuste excesivo o insuficiente. El sesgo se reduce y la varianza aumenta en relación con la complejidad del modelo. A medida que se agregan más y más parámetros a un modelo, la complejidad del modelo aumenta y la varianza se convierte en nuestra principal preocupación, mientras que el sesgo disminuye constantemente. Por ejemplo, a medida que se agreguen más términos polinomiales a una regresión lineal, mayor será la complejidad del modelo resultante. En otras palabras, el sesgo tiene una derivada negativa de primer orden en respuesta a la complejidad del modelo, mientras que la varianza tiene una pendiente positiva.
Comprender el sesgo y la varianza es fundamental para comprender el comportamiento de los modelos de predicción, pero en general lo que realmente le importa es el error general, no la descomposición específica. El punto óptimo para cualquier modelo es el nivel de complejidad en el que el aumento del sesgo es equivalente a la reducción de la varianza. Matemáticamente:
dBiasd / Complejidad = −dVariance / dComplexity
Si la complejidad de nuestro modelo excede este punto óptimo, en realidad estamos ajustando demasiado nuestro modelo; mientras que si nuestra complejidad no llega al punto óptimo, no estamos ajustando el modelo. En la práctica, no hay una forma analítica de encontrar esta ubicación. En su lugar, debemos usar una medida precisa del error de predicción y explorar diferentes niveles de complejidad del modelo y luego elegir el nivel de complejidad que minimice el error general.