¿Cuál es la forma más sencilla de entender el equilibrio de sesgo-varianza en el aprendizaje automático?

Piense en lo que hace que un modelo de aprendizaje automático sea inexacto y cómo se cuantifica esta inexactitud. Por lo general, se cuantifica por error o precisión : usted dice que su modelo tiene un error del 5% en algún conjunto de datos de validación, o alcanza el 95% de precisión en ese conjunto de datos.

La siguiente pregunta que tiene sentido hacer es “¿de dónde viene este error”? Para ilustrar de dónde proviene el error, consideremos un estudio estadístico simple. Digamos que quiere averiguar si los ingresos de un hogar se relacionan con la calidad del matrimonio, por lo que llama por teléfono a varios hogares y les pregunta sobre los ingresos y qué tan felices están con sus matrimonios.

Para llevar a cabo este estudio, digamos que su primer intento es llamar a 10 de sus amigos casados ​​y hacerles esta pregunta (guardemos la incomodidad de hacer tal pregunta para una discusión posterior). Imagine que esos 10 amigos son bastante similares a usted: ingresos similares, educación similar y etnia similar. Es probable que la mayoría de sus respuestas sean similares entre sí.

Realiza su estudio y escribe sus resultados, solo para ver unos meses más tarde que un estudio sobre el mismo tema, realizado a una escala mucho mayor, con miles de familias de diferentes niveles de ingresos y antecedentes, había producido resultados muy diferentes. ¿En qué estudio es más probable que confíes?

Hay algunos problemas con nuestro estudio: el pequeño tamaño de la muestra y la similitud de las 10 familias encuestadas. Es fácil poner todos estos problemas bajo el paraguas de “error”, pero resulta que son dos tipos muy diferentes de error: sesgo y varianza.

Específicamente, el pequeño tamaño de la muestra es una fuente de variación. Tomemos un caso más extremo: lleva a cabo todo su estudio basándose solo en una pareja casada. Claramente, si volviste a hacer ese estudio y elegiste una pareja diferente, y luego otra pareja diferente, esperarías que la respuesta única que obtengas varíe mucho: después de todo, cada pareja es única.

De manera similar, volviendo al estudio original, si tomaste una muestra de un conjunto diferente de 10 personas, es probable que las respuestas sean muy diferentes, y si tomaste una muestra de otro conjunto diferente de 10 personas, es probable que las respuestas sean muy diferentes. de los otros dos. Pero si tomó una muestra de 10,000 familias, entonces probablemente encontrará que las respuestas de un conjunto de 10,000 familias diferentes en su conjunto no difieren demasiado. Por supuesto, esto supone que las 10,000 familias han sido seleccionadas al azar (esta es la razón por la cual los métodos de muestreo aleatorio se enfatizan en los cursos introductorios de estadística, ya que un muestreo incorrecto puede cancelar las ganancias potenciales al tener acceso a una muestra grande).

Por otro lado, el hecho de que las 10 familias de la muestra tenían antecedentes y niveles de ingresos similares es una fuente de sesgo . Digamos que su estudio resultó en 5 parejas de altos ingresos que estaban felices con sus matrimonios, y 5 parejas de bajos ingresos que no estaban contentas con su matrimonio. Si va por la ciudad diciendo que “el ingreso está directamente relacionado con la felicidad matrimonial”, probablemente se reirá de usted, ya que ha ajustado su opinión a las parejas particulares que encuestó en el estudio (esta es solo otra forma de decir que correlación! = causalidad).

Es bastante intuitivo darse cuenta de que esta muestra no es representativa de la población general. Lo que hace que esto sea diferente del error de no tener un tamaño de muestra lo suficientemente grande es que los resultados estarían consistentemente fuera de lo normal si volviera a muestrear una y otra vez bajo los mismos parámetros: es probable que un conjunto diferente de 10 familias con antecedentes y niveles de ingresos similares tener respuestas similares, y el error con esa muestra sería similar al error en su muestra actual.

Por supuesto, no tenemos una cantidad ilimitada de datos para construir nuestro modelo, por lo que debemos aceptar cierta cantidad de error. El error de un modelo se puede representar de la siguiente manera [1]:

[matemática] Err (X) = Sesgo (X) ^ 2 + Varianza (X) + \ sigma_e [/ matemática]

Donde [math] \ sigma_e [/ math] es el error irreducible.

El sesgo de un modelo nos dice qué tan lejos está la predicción del modelo promedio del valor real. En general, solo hemos construido un modelo, pero podemos construir varios modelos diferentes usando diferentes submuestreos de conjuntos de datos o características diferentes. Digamos que como resultado, tenemos un conjunto de modelos. El sesgo viene dado por la diferencia entre la predicción esperada de este conjunto de modelos y la predicción real en un punto particular [1]:

[matemática] Sesgo (X) = E [\ hat {f} (x)] – f (x) [/ matemática]

Por otro lado, la variación depende de cuánto difieren entre sí los modelos que hemos entrenado. Nuevamente, digamos que hemos construido varios modelos diferentes. Los errores debidos a la varianza no se refieren a qué tan lejos están las predicciones de los modelos del valor real, sino a la variabilidad de las predicciones de los modelos entre sí:

[matemáticas] Var (X) = E [(\ hat {f} (x) – E [\ hat {f} (x)]) ^ 2] [/ matemáticas]

Podemos comenzar a ver por qué tanto el sesgo como la varianza son importantes. Obviamente, nos gustaría tener un sesgo bajo para que la predicción (esperada) de nuestro modelo no esté muy lejos de la etiqueta real. También nos gustaría tener modelos con baja varianza: si los modelos tuvieran una alta varianza, entonces sus parámetros serían muy diferentes según el conjunto de datos en el que se entrenaron, y no se generalizarían bien a los datos invisibles (habríamos aprendido un modelo para el conjunto de datos en particular en el que hemos entrenado, pero no un modelo para toda la distribución de generación de datos de donde provienen nuestras observaciones).

Sin embargo, dado que tenemos una cierta cantidad de error fijo, la primera ecuación nos dice que el sesgo y la varianza tienen un compromiso entre sí: disminuir uno, aumentar el otro.

Una compensación común hecha en el aprendizaje automático es dejar que el sesgo sea un poco más alto a cambio de una varianza más baja. Esto se hace comúnmente con la regularización, que, en un nivel alto, implica imponer penalizaciones en los parámetros de su modelo para evitar que se sobreajusten (bajo sesgo, alta varianza) en su conjunto de datos. Un modelo de bajo sesgo y alta varianza es indicativo de sobreajuste, y generalmente podemos ver esto al observar las magnitudes de los valores de los parámetros que nuestro modelo ha aprendido. Por ejemplo, considere los diferentes valores de parámetros aprendidos cuando ajustamos polinomios de diferentes grados en la misma muestra de datos [2]:

La regularización de L2 puede ayudarnos aquí: agrega una función a nuestra función de pérdida existente que penaliza los pesos que tienen una gran magnitud, por lo que es más probable que aprendamos pesos más pequeños. He escrito un poco más sobre eso aquí, pero la idea de alto nivel es que evite el sobreajuste (y, por lo tanto, una gran variación) al imponer una compensación entre la función de pérdida que busca optimizar en su conjunto de negociación y los tipos de parámetros que tu modelo aprende. En algunos casos, puede demostrar rigurosamente que regularizar su modelo reduce su varianza (esperada) y aumenta su sesgo (esperado) en comparación con el modelo no regularizado. Otra forma de reducir la varianza de un modelo es usar métodos de conjunto como la agregación bootstrap. ¡Espero que esto haya sido útil!

Fuentes

  1. Comprender la compensación de la variación de sesgo – Scott Fortmann-Roe
  2. Diapositivas de la conferencia del curso de aprendizaje automático de UCLA – Ameet Talwalkar

Creo que la variación de sesgo es muy importante para todos los entusiastas del aprendizaje automático.

Este fenómeno es la razón detrás de todos los parámetros, el rendimiento y casi la idea principal detrás de cualquier modelo de aprendizaje automático. Si puedes entenderlo, te lo prometo, U comprenderá todos los modelos de Machine Learning.

Entonces, no perdamos nuestro tiempo y vamos a sumergirnos, este es un poco largo, pero te prometo que aclararé todas las dudas y seguramente obtendrás el beneficio de tu paciencia.

Equilibrio de sesgo-varianza en el aprendizaje automático:

El aprendizaje automático se trata de estimar mejor la función de mapeo (f) para la variable de salida (Y) dados los datos de entrada (X). La función de mapeo a menudo se llama función objetivo.

El error de predicción para cualquier algoritmo de aprendizaje automático se puede dividir en tres partes:

Error de sesgo + Error de varianza + Error irreducible (error que no podemos reducir aún más para un modelo dado).

En esta respuesta, me centraré en dos cosas principales que influyen más en el algoritmo de aprendizaje automático.

Índice de aquí.

1) error de sesgo

2) Error de varianza.

3) Compensación de variación de sesgo

4) Resumen o la idea que necesita recordar.

1. Error de sesgo:

En palabras simples. Es el error debido a suposiciones simplificadoras. Los modelos hacen suposiciones simplificadoras para hacer que la función de destino sea más temprana para aprender

Ejemplo:

En Regresión logística hicimos una simple suposición de que.

“Un hiperplano separará + ve de -ve”.

En general, los algoritmos paramétricos tienen un alto sesgo, lo que los hace rápidos de aprender y fáciles de entender, pero generalmente menos flexibles.

(En una respuesta separada, explicaré la diferencia entre algoritmos paramétricos y algoritmos no paramétricos. Por ahora suponga que “los métodos paramétricos hacen grandes suposiciones sobre el mapeo de las variables de entrada a la variable de salida y, a su vez, son más rápidos de entrenar, requieren menos datos pero puede no ser tan poderoso “y

“los métodos no paramétricos hacen pocos o ningún supuesto sobre la función objetivo y, a su vez, requieren muchos más datos, son más lentos para entrenar y tienen una mayor complejidad del modelo, pero pueden dar como resultado modelos más potentes”.

Bajo sesgo: sugiere menos suposiciones sobre la forma de la función objetivo.

Alto sesgo: sugiere más suposiciones sobre la forma de la función de destino.

Ejemplo de modelos de bajo sesgo: k-vecinos más cercanos y máquinas de vectores de soporte.

Para saber más sobre los vecinos más cercanos a K, consulte mi respuesta anterior.

Ejemplo de modelos de alto sesgo: regresión lineal y logística.

2. Error de variación :

1) La estimación de la función objetivo cambiará si se utilizaron diferentes datos de entrenamiento.

2) La función objetivo se estima a partir de los datos de entrenamiento mediante un algoritmo de aprendizaje automático, por lo que deberíamos esperar que el algoritmo tenga alguna variación. Idealmente, no debería cambiar demasiado de un conjunto de datos de entrenamiento al siguiente, lo que significa que el algoritmo es bueno para seleccionar el mapeo subyacente oculto entre las entradas y las variables de salida.

Variación baja: pequeños cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento.

Alta variación: sugiere grandes cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento.

En general, los algoritmos de aprendizaje automático no paramétricos que tienen mucha flexibilidad tienen una gran variación.

Ejemplos de modelos de alta varianza: K-nn y SVM.

3) Compensación de sesgo-varianza: puede ver una tendencia general en los ejemplos anteriores: los algoritmos de aprendizaje automático paramétricos o lineales a menudo tienen un sesgo alto pero una varianza baja.

Los algoritmos de aprendizaje automático no paramétricos o no lineales a menudo tienen un sesgo bajo pero una varianza alta. Aquí está el ejemplo de un algoritmo específico para configurar el equilibrio de sesgo-varianza.

**************************************************

El algoritmo de vecinos más cercanos a k tiene un sesgo bajo y una varianza alta, pero la compensación puede cambiarse aumentando el valor de k, lo que aumenta el número de vecinos que contribuyen a la predicción y, a su vez, aumenta el sesgo del modelo.

**************************************************

Por lo tanto, aumentar el sesgo disminuirá la varianza, y aumentar la varianza disminuirá el sesgo.

En la práctica, no podemos calcular los términos de error de sesgo real y varianza porque no conocemos la función objetivo subyacente real.

But But But, como marco, el sesgo y la varianza proporcionan las herramientas para comprender el comportamiento de los algoritmos de aprendizaje automático en la búsqueda del rendimiento predictivo.

4) Resumen:

  1. El aprendizaje automático se trata de encontrar una función de mapeo (f), a menudo llamada función objetivo.
  2. El sesgo son los supuestos simplificadores hechos por el modelo para hacer que la función objetivo sea más fácil de aproximar.
  3. La variación es la cantidad que la estimación de la función objetivo cambiará dados los diferentes datos de entrenamiento.
  4. La compensación es la tensión entre el error introducido por el sesgo y la varianza.

Gracias por su paciencia. Espero que esto les haya ayudado.

Por favor, no olvides hacer una votación positiva que me motive a escribir más.

Deja un comentario y haz tu pregunta y haré todo lo posible para responder

Fuente: Curso de IA aplicada : es una gran plataforma para los cursos en línea de Machine Learning y Google

Piensa que es una red neuronal. Los programadores de Java pueden implementarlo fácilmente utilizando un conjunto de datos y Neurops, una Biblioteca Java de Machine Learning.

More Interesting

¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?

¿Por qué el núcleo RBF (función de base radial) se asigna al espacio dimensional infinito, mencionado muchas veces en las conferencias de aprendizaje automático?

Después de dominar el aprendizaje profundo, ¿es posible conseguir un trabajo en aprendizaje automático?

¿Qué carrera es mejor, Machine Learning o DevOps?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

¿Cuáles son algunas técnicas comunes para el aumento de datos de video en el aprendizaje profundo?

¿Cuál es la mejor manera de normalizar los datos implícitos para un sistema de recomendación de música mediante el filtrado colaborativo?

¿Cuáles son las herramientas basadas en redes neuronales disponibles ahora para el consumidor?

¿Cuál es el método de detección de objetos de última generación para la identificación de objetos dentro de la imagen?

Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

¿Con qué empiezo, minería de datos, inteligencia artificial o aprendizaje automático?

Cómo implementar el descenso de gradiente de mini lotes en una red neuronal

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?