¿Cuál es la forma más sencilla de entender el equilibrio de sesgo-varianza en el aprendizaje automático?

Piense en lo que hace que un modelo de aprendizaje automático sea inexacto y cómo se cuantifica esta inexactitud. Por lo general, se cuantifica por error o precisión : usted dice que su modelo tiene un error del 5% en algún conjunto de datos de validación, o alcanza el 95% de precisión en ese conjunto de datos.

La siguiente pregunta que tiene sentido hacer es “¿de dónde viene este error”? Para ilustrar de dónde proviene el error, consideremos un estudio estadístico simple. Digamos que quiere averiguar si los ingresos de un hogar se relacionan con la calidad del matrimonio, por lo que llama por teléfono a varios hogares y les pregunta sobre los ingresos y qué tan felices están con sus matrimonios.

Para llevar a cabo este estudio, digamos que su primer intento es llamar a 10 de sus amigos casados y hacerles esta pregunta (guardemos la incomodidad de hacer tal pregunta para una discusión posterior). Imagine que esos 10 amigos son bastante similares a usted: ingresos similares, educación similar y etnia similar. Es probable que la mayoría de sus respuestas sean similares entre sí.

Realiza su estudio y escribe sus resultados, solo para ver unos meses más tarde que un estudio sobre el mismo tema, realizado a una escala mucho mayor, con miles de familias de diferentes niveles de ingresos y antecedentes, había producido resultados muy diferentes. ¿En qué estudio es más probable que confíes?

Hay algunos problemas con nuestro estudio: el pequeño tamaño de la muestra y la similitud de las 10 familias encuestadas. Es fácil poner todos estos problemas bajo el paraguas de “error”, pero resulta que son dos tipos muy diferentes de error: sesgo y varianza.

Específicamente, el pequeño tamaño de la muestra es una fuente de variación. Tomemos un caso más extremo: lleva a cabo todo su estudio basándose solo en una pareja casada. Claramente, si volviste a hacer ese estudio y elegiste una pareja diferente, y luego otra pareja diferente, esperarías que la respuesta única que obtengas varíe mucho: después de todo, cada pareja es única.

De manera similar, volviendo al estudio original, si tomaste una muestra de un conjunto diferente de 10 personas, es probable que las respuestas sean muy diferentes, y si tomaste una muestra de otro conjunto diferente de 10 personas, es probable que las respuestas sean muy diferentes. de los otros dos. Pero si tomó una muestra de 10,000 familias, entonces probablemente encontrará que las respuestas de un conjunto de 10,000 familias diferentes en su conjunto no difieren demasiado. Por supuesto, esto supone que las 10,000 familias han sido seleccionadas al azar (esta es la razón por la cual los métodos de muestreo aleatorio se enfatizan en los cursos introductorios de estadística, ya que un muestreo incorrecto puede cancelar las ganancias potenciales al tener acceso a una muestra grande).

Por otro lado, el hecho de que las 10 familias de la muestra tenían antecedentes y niveles de ingresos similares es una fuente de sesgo . Digamos que su estudio resultó en 5 parejas de altos ingresos que estaban felices con sus matrimonios, y 5 parejas de bajos ingresos que no estaban contentas con su matrimonio. Si va por la ciudad diciendo que “el ingreso está directamente relacionado con la felicidad matrimonial”, probablemente se reirá de usted, ya que ha ajustado su opinión a las parejas particulares que encuestó en el estudio (esta es solo otra forma de decir que correlación! = causalidad).

Es bastante intuitivo darse cuenta de que esta muestra no es representativa de la población general. Lo que hace que esto sea diferente del error de no tener un tamaño de muestra lo suficientemente grande es que los resultados estarían consistentemente fuera de lo normal si volviera a muestrear una y otra vez bajo los mismos parámetros: es probable que un conjunto diferente de 10 familias con antecedentes y niveles de ingresos similares tener respuestas similares, y el error con esa muestra sería similar al error en su muestra actual.

Por supuesto, no tenemos una cantidad ilimitada de datos para construir nuestro modelo, por lo que debemos aceptar cierta cantidad de error. El error de un modelo se puede representar de la siguiente manera [1]:

[matemática] Err (X) = Sesgo (X) ^ 2 + Varianza (X) + \ sigma_e [/ matemática]

Donde [math] \ sigma_e [/ math] es el error irreducible.

El sesgo de un modelo nos dice qué tan lejos está la predicción del modelo promedio del valor real. En general, solo hemos construido un modelo, pero podemos construir varios modelos diferentes usando diferentes submuestreos de conjuntos de datos o características diferentes. Digamos que como resultado, tenemos un conjunto de modelos. El sesgo viene dado por la diferencia entre la predicción esperada de este conjunto de modelos y la predicción real en un punto particular [1]:

[matemática] Sesgo (X) = E [\ hat {f} (x)] – f (x) [/ matemática]

Por otro lado, la variación depende de cuánto difieren entre sí los modelos que hemos entrenado. Nuevamente, digamos que hemos construido varios modelos diferentes. Los errores debidos a la varianza no se refieren a qué tan lejos están las predicciones de los modelos del valor real, sino a la variabilidad de las predicciones de los modelos entre sí:

[matemáticas] Var (X) = E [(\ hat {f} (x) – E [\ hat {f} (x)]) ^ 2] [/ matemáticas]

Podemos comenzar a ver por qué tanto el sesgo como la varianza son importantes. Obviamente, nos gustaría tener un sesgo bajo para que la predicción (esperada) de nuestro modelo no esté muy lejos de la etiqueta real. También nos gustaría tener modelos con baja varianza: si los modelos tuvieran una alta varianza, entonces sus parámetros serían muy diferentes según el conjunto de datos en el que se entrenaron, y no se generalizarían bien a los datos invisibles (habríamos aprendido un modelo para el conjunto de datos en particular en el que hemos entrenado, pero no un modelo para toda la distribución de generación de datos de donde provienen nuestras observaciones).

Sin embargo, dado que tenemos una cierta cantidad de error fijo, la primera ecuación nos dice que el sesgo y la varianza tienen un compromiso entre sí: disminuir uno, aumentar el otro.

Una compensación común hecha en el aprendizaje automático es dejar que el sesgo sea un poco más alto a cambio de una varianza más baja. Esto se hace comúnmente con la regularización, que, en un nivel alto, implica imponer penalizaciones en los parámetros de su modelo para evitar que se sobreajusten (bajo sesgo, alta varianza) en su conjunto de datos. Un modelo de bajo sesgo y alta varianza es indicativo de sobreajuste, y generalmente podemos ver esto al observar las magnitudes de los valores de los parámetros que nuestro modelo ha aprendido. Por ejemplo, considere los diferentes valores de parámetros aprendidos cuando ajustamos polinomios de diferentes grados en la misma muestra de datos [2]:

La regularización de L2 puede ayudarnos aquí: agrega una función a nuestra función de pérdida existente que penaliza los pesos que tienen una gran magnitud, por lo que es más probable que aprendamos pesos más pequeños. He escrito un poco más sobre eso aquí, pero la idea de alto nivel es que evite el sobreajuste (y, por lo tanto, una gran variación) al imponer una compensación entre la función de pérdida que busca optimizar en su conjunto de negociación y los tipos de parámetros que tu modelo aprende. En algunos casos, puede demostrar rigurosamente que regularizar su modelo reduce su varianza (esperada) y aumenta su sesgo (esperado) en comparación con el modelo no regularizado. Otra forma de reducir la varianza de un modelo es usar métodos de conjunto como la agregación bootstrap. ¡Espero que esto haya sido útil!

Fuentes

Comprender la compensación de la variación de sesgo – Scott Fortmann-Roe
Diapositivas de la conferencia del curso de aprendizaje automático de UCLA – Ameet Talwalkar

Machine Learning