¿Cuál es el significado conciso y la interpretación del sesgo y la varianza en el aprendizaje automático y las estadísticas?

En el aprendizaje automático supervisado, entrenamos nuestro modelo en una muestra de datos limitada (que está disponible), pero la parte difícil es que nuestro objetivo no es optimizar esta muestra, sino más bien poder generalizar nuestras predicciones a los datos no vistos. Esto es capturado por el error de generalización , que es el error esperado en todos los ejemplos, incluidos los que están fuera de la pequeña muestra de entrenamiento.

Este error de generalización es de dos tipos: uno derivado de sesgo y el otro fuera de varianza . El modelo que utilizamos para nuestra tarea de aprendizaje puede ser muy simple y no es capaz de modelar la compleja relación entre las características de entrada y la salida. Un ejemplo sería un clasificador lineal que se usa para modelar datos que solo pueden ser modelados por un polinomio de mayor grado. Por otro lado, nuestro modelo puede ser complejo y tener demasiadas partes móviles. [1] Luego corremos el riesgo de un ajuste excesivo en la muestra de entrenamiento más pequeña y un mal desempeño en los datos de prueba que realmente queremos predecir. Ambos casos se muestran a continuación:

Fuente: [2]

Como regla general, el error de generalización que surge de la variación se reducirá a medida que se utilicen más datos para el entrenamiento. El profesor Andrew Ng [3] ha resumido esto bien en las siguientes diapositivas de la conferencia, donde la línea verde sería indicativa del error de generalización.


[1] Esto es capturado por la dimensión VC (Vapnik – Chervonenkis) del modelo. http://www.liaolin.com/Courses/v…

[2] Crédito de imagen y lectura interesante sobre problemas de sesgo / varianza en algoritmos de aprendizaje automático basados ​​en el curso Coursera de Andrew Ng. Cómo diagnosticar problemas con su algoritmo de aprendizaje estadístico.

[3] La Sección X del curso de Coursera sobre Machine Learning de Andrew Ng analiza este aspecto del sesgo / varianza en el contexto del diagnóstico de problemas con algoritmos de machine learning.

Recomiendo echar un vistazo al curso Caltech ML de Yaser Abu-Mostafa, Lecture 8 (Bias-Variance Tradeoff).

Aquí está el buen ejemplo que dio Yaser:

Digamos que está tratando de aprender la función seno:


Nuestro conjunto de entrenamiento consta de solo 2 puntos de datos.

Intentemos hacerlo con dos modelos, h0 (x) = by h1 (x) = ax + b:

Para h0 (x) = b, cuando intentamos con muchos conjuntos de entrenamiento diferentes (es decir, seleccionamos repetidamente 2 puntos de datos y realizamos el aprendizaje en ellos), obtenemos (el gráfico izquierdo representa todos los modelos aprendidos, el gráfico derecho representa su media g y su varianza (área gris)):

Para h1 (x) = ax + b, cuando intentamos con muchos conjuntos de entrenamiento diferentes, obtenemos:

Si comparamos el modelo aprendido con h0 y h1, podemos ver que h0 produce modelos más simples que h1, por lo tanto, una varianza menor cuando consideramos todos los modelos aprendidos con h0, pero el mejor modelo g (en rojo en el gráfico) aprendido con h1 es mejor que el mejor modelo aprendido g con h0, por lo tanto, un sesgo menor con h1:

Michael Hochster dio una buena respuesta técnica; más informalmente:

Supongamos que tiene dos básculas de baño. Suponga que se pesa en una balanza (estándar de oro) y encuentra que pesa 80 kg.

Te subes a la báscula 1 4 veces y obtienes pesos de 81, 82, 81, 82,
Te subes a la escala 2 4 veces y obtienes pesos de 75, 85, 75, 85.

La escala 1 tiene una varianza baja pero está sesgada. La escala 2 es imparcial pero tiene una gran varianza.

Desde mi punto de vista, a menudo hay una sobrevaloración de la importancia de las estimaciones imparciales; si la cantidad máxima de varianza de una estimación puede, en sí misma, estimarse o definirse, entonces puede ser útil reducir la varianza; Esto es lo que sucede en la regresión de crestas, por ejemplo.

Digamos que desea estimar o predecir algún valor fijo pero desconocido [matemática] \ theta [/ matemática] utilizando una medición aleatoria [matemática] T [/ matemática]. Una métrica de rendimiento comúnmente utilizada para [matemática] T [/ matemática] es el error cuadrado medio (también conocido como promedio esperado):
[matemáticas] MSE = E (T – \ theta) ^ 2 [/ matemáticas]
Si escribimos [math] \ mu = E (T) [/ math], entonces podemos reescribir lo anterior como:
[matemáticas] E (T – \ mu + \ mu – \ theta) ^ 2 [/ matemáticas]
[matemáticas] = E (T – \ mu) ^ 2 + 2E [(T – \ mu) (\ mu – \ theta)] + (\ mu – \ theta) ^ 2 [/ matemáticas]
No hay [matemáticas] E () [/ matemáticas] en el último término porque no es aleatorio, es solo un número. El término medio es 0, por lo que nos da la identidad:
[matemáticas] MSE = E (T – \ mu) ^ 2 + (\ mu – \ theta) ^ 2 [/ matemáticas]
que descompone el error cuadrático medio en varianza (el primer término) y sesgo cuadrado (el segundo término). La existencia de esta descomposición aditiva es una de las cosas buenas de usar el error cuadrático medio.

El término sesgo mide el grado en que su predicción es sistemáticamente incorrecta; dado que solo depende del valor promedio [math] \ mu [/ math] de su predicción, no lo reducirá al recopilar más datos de la misma manera. La variación le da una medida de qué tan bien [matemáticas] T [/ matemáticas] predice su propio valor promedio; normalmente, cuantos más datos tenga de apoyo [matemática] T [/ matemática], menor será la variación.

Muchos métodos estadísticos proceden suponiendo que desea que el sesgo sea 0 e intente minimizar la varianza sujeta a esa restricción. Pero en algunos casos, puede mejorar el MSE general asumiendo cierto sesgo para lograr una varianza más baja.

Interpretación gráfica de sesgo – varianza.

Comprendamos esta imagen. Este es el diagrama de ojo de buey. Suponga que el centro del objetivo (color rojo) es un modelo que predice perfectamente los valores correctos. A medida que nos alejamos del ojo del toro, nuestra predicción empeora. Imagina que podemos repetir todo nuestro proceso de construcción de modelos para obtener una cantidad de golpes por separado en el objetivo. Cada golpe representa una realización individual de nuestro modelo, dada la variabilidad casual en los datos de entrenamiento que recopilamos. A veces obtendremos una buena distribución de los datos de entrenamiento, por lo que pronosticamos muy bien y estamos cerca de la diana, mientras que a veces nuestros datos de entrenamiento pueden estar llenos de valores atípicos o no estándar que resultan en predicciones más pobres. Estas diferentes realizaciones dan como resultado una dispersión de golpes en el objetivo.

Veamos la definición de sesgo y varianza:

Sesgo : sesgo significa cuán lejos están nuestras predicciones de los valores reales. En general, los algoritmos paramétricos tienen un alto sesgo, lo que los hace rápidos de aprender y fáciles de entender, pero generalmente menos flexibles. A su vez, tienen un rendimiento predictivo más bajo en problemas complejos que no cumplen con los supuestos simplificadores del sesgo de los algoritmos.

  • Bajo sesgo : sugiere más suposiciones sobre la forma de la función objetivo.
  • Alto sesgo : sugiere menos suposiciones sobre la forma de la función objetivo.

Los ejemplos de algoritmos de aprendizaje automático de bajo sesgo incluyen: árboles de decisión, vecinos más cercanos k y máquinas de vectores de soporte.

Los ejemplos de algoritmos de aprendizaje automático de alto sesgo incluyen: Regresión lineal, Análisis discriminante lineal y Regresión logística.

Varianza : cambio en las predicciones en diferentes conjuntos de datos. Nuevamente, imagine que puede repetir todo el proceso de construcción del modelo varias veces. La variación es cuánto varían las predicciones para un punto dado entre diferentes realizaciones del modelo. En otras palabras,
La variación es la cantidad que la estimación de la función objetivo cambiará si se utilizan diferentes datos de entrenamiento.

La función objetivo se estima a partir de los datos de entrenamiento mediante un algoritmo de aprendizaje automático, por lo que deberíamos esperar que el algoritmo tenga alguna variación. Idealmente, no debería cambiar demasiado de un conjunto de datos de entrenamiento al siguiente, lo que significa que el algoritmo es bueno para seleccionar el mapeo subyacente oculto entre las entradas y las variables de salida.

Los algoritmos de aprendizaje automático que tienen una gran variación están fuertemente influenciados por los detalles de los datos de entrenamiento. Esto significa que los detalles del entrenamiento influyen en el número y los tipos de parámetros utilizados para caracterizar la función de mapeo.

  • Variación baja : sugiere pequeños cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento.
  • Alta variación : sugiere grandes cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento.

En general, los algoritmos de aprendizaje automático no paramétricos que tienen mucha flexibilidad tienen una gran variación. Por ejemplo, los árboles de decisión tienen una gran variación, que es aún mayor si los árboles no se podan antes de su uso.

Los ejemplos de algoritmos de aprendizaje automático de baja varianza incluyen: Regresión lineal, Análisis discriminante lineal y Regresión logística.

Los ejemplos de algoritmos de aprendizaje automático de alta varianza incluyen: árboles de decisión, vecinos más cercanos k y máquinas de vectores de soporte.

Comprender el ajuste excesivo o insuficiente

En su raíz, lidiar con el sesgo y la varianza se trata realmente de lidiar con un ajuste excesivo o insuficiente. El sesgo se reduce y la varianza aumenta en relación con la complejidad del modelo. A medida que se agregan más y más parámetros a un modelo, la complejidad del modelo aumenta y la varianza se convierte en nuestra principal preocupación, mientras que el sesgo disminuye constantemente. Por ejemplo, a medida que se agreguen más términos polinomiales a una regresión lineal, mayor será la complejidad del modelo resultante. En otras palabras, el sesgo tiene una derivada negativa de primer orden en respuesta a la complejidad del modelo, mientras que la varianza tiene una pendiente positiva.

Comprender el sesgo y la varianza es fundamental para comprender el comportamiento de los modelos de predicción, pero en general lo que realmente le importa es el error general, no la descomposición específica. El punto óptimo para cualquier modelo es el nivel de complejidad en el que el aumento del sesgo es equivalente a la reducción de la varianza. Matemáticamente:

dBiasd / Complejidad = −dVariance / dComplexity

Si la complejidad de nuestro modelo excede este punto óptimo, en realidad estamos ajustando demasiado nuestro modelo; mientras que si nuestra complejidad no llega al punto óptimo, no estamos ajustando el modelo. En la práctica, no hay una forma analítica de encontrar esta ubicación. En su lugar, debemos usar una medida precisa del error de predicción y explorar diferentes niveles de complejidad del modelo y luego elegir el nivel de complejidad que minimice el error general.

El sesgo es la diferencia entre el valor verdadero (o deseado) y el valor medido (o real) de una estadística o salida de la máquina, cuando esa diferencia es sistemática (es decir, no aleatoria). La variación es la diferencia esperada cuando dicha diferencia se debe únicamente a procesos aleatorios.

Aquí hay una buena explicación: comprender el equilibrio entre sesgo y varianza

Con cuatro parámetros, puedo colocar un elefante, y con cinco puedo hacer que mueva su trompa”. John von Neumann

Sesgo = error en el conjunto de entrenamiento. Varianza = error adicional en el conjunto de prueba.

More Interesting

¿En qué se diferencia el aprendizaje profundo del perceptrón multicapa?

Matemática Aplicada: ¿Cuáles son los diferentes métodos para pronosticar datos de series de tiempo?

¿Puede un principiante de programación sumergirse profundamente en el aprendizaje automático y el aprendizaje profundo directamente?

Como estudiante que realiza un curso de algoritmos de aprendizaje automático, ¿en qué debe centrarse el objetivo principal para maximizar el conocimiento aplicable al final del semestre?

Usando TensorFlow, ¿cómo construiría una IA que pueda reconocer patrones en secuencias numéricas y luego transmitir el patrón al usuario? Está destinado a aprender los patrones que le doy de comer.

¿Cuál es la diferencia entre el aprendizaje automático, el procesamiento del lenguaje natural, el aprendizaje profundo y la visión por computadora?

¿En qué aspectos el aprendizaje automático y la inteligencia artificial cambiarán la fabricación pesada, como la industria del petróleo y el gas?

¿Se puede extraer información significativa de un sistema caótico utilizando una red neuronal?

¿Cuáles son las diferencias entre el enfoque basado en reglas y el enfoque de aprendizaje automático en el análisis de sentimientos?

¿Se utilizan algoritmos básicos de CS en el aprendizaje automático?

¿En qué se diferencia el aprendizaje profundo de la propagación por error (error)?

¿Existe una conexión entre la ciencia de datos y el aprendizaje automático?

¿Apache Spark es un buen marco para implementar Reinforcement Learning?

¿Cuál es un buen tutorial sobre el uso de Weka con Big Data?

¿Se pueden programar las computadoras para comprender el valor estético de algo?