¿Cómo se eligieron las palabras sesgo y varianza (Machine Learning)?

Sesgo [1] y varianza [2] son términos de estadísticas. Uno de los conceptos más importantes en estadística es la compensación de la variación de sesgo [3]. En la mayoría de las tareas de aprendizaje automático, queremos estimar una función [math] \ hat {f} (x) [/ math] dado que la función verdadera es [math] f (x) [/ math].

El sesgo nos dice cuánto es nuestro modelo sistemáticamente diferente del valor real que se estima. Y la variación captura la complejidad del modelo, es decir, si cambia ligeramente el conjunto de datos, ¿cuánto va a cambiar su modelo?

La compensación de la variación de sesgo nos dice que el error cuadrático medio entre nuestra predicción y el valor verdadero es

Una manera fácil de recordarlo es a través del siguiente diagrama.

Digamos que está utilizando un modelo lineal para ajustar sus datos. Entonces el sesgo puede ser alto porque el modelo lineal podría no ser capaz de representar la función verdadera. Sin embargo, la varianza será baja, porque si se ajusta a una gran cantidad de modelos lineales, el modelo esperado estará aproximadamente en la misma línea. Este es un caso de desajuste bajo, alto sesgo y baja varianza.

De manera similar, tiene el caso de una varianza baja de alto sesgo donde la complejidad del modelo es alta y es más propenso a un ajuste excesivo.

Notas al pie

[1] Sesgo (estadísticas) – Wikipedia

[2] Varianza – Wikipedia

[3] Compensación sesgo-varianza – Wikipedia

Aprendizaje automáticoestadísticasSesgo

¿Cómo se derivan las funciones de costo para las redes neuronales?

¿Cómo modifica una red neuronal su peso sin entrar en un efecto de ping-pong? La función de modificación de peso se basa en el error (l * e * o [1, 2]), por lo que los valores de error altos dan modificaciones de peso drásticas.

¿Es útil el aprendizaje automático en el campo de la ingeniería eléctrica?

¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos sociales?

¿Los bancos de inversión como Goldman Sachs o JP Morgan utilizan el aprendizaje automático? ¿Contratan a un ingeniero de IA?

¿Cuáles son las tendencias e investigaciones actuales relacionadas con la red neuronal profunda en los sistemas inteligentes de transporte?

No estuve presente para la votación ni nada, pero puedo decirles cómo los interpreto y recuerdo.

Parcialidad

Cada vez que elige un tipo de modelo, hace la afirmación de que los datos son de una forma que ese modelo puede describir. Si elige la regresión lineal, asume que su respuesta es una combinación lineal de sus variables de entrada. El modelo de ajuste resultante está sesgado por esa suposición. Si los datos no son de la forma que asumió, el modelo no se ajustará exactamente a los datos de entrenamiento. Entonces, el sesgo es lo equivocado que estabas en la especificación de tu modelo.

Diferencia

La variación es simplemente cuánto varía el poder predictivo de su modelo entre sus datos de entrenamiento y prueba.

Saswata Chakravarty

El sesgo y la varianza son conceptos generales en la estimación estadística. Un estimador es una función de muestras de datos extraídas de una distribución y, por lo tanto, una variable aleatoria. Por ejemplo, la media muestral es un estimador de la media real de una distribución.

El sesgo de un estimador es la diferencia entre el valor esperado del estimador y el parámetro real que está tratando de estimar. El sesgo de la media muestral es 0 ya que el valor esperado de la media muestral es 0, o en otras palabras, es un estimador imparcial.

La varianza del estimador es simplemente la varianza de la variable aleatoria del estimador.

En el contexto del aprendizaje automático, los estimadores son los parámetros del modelo, que en cierto sentido son los estimadores de los parámetros de la distribución condicional verdadera P (Y | X). Si el modelo es demasiado simple, el valor esperado de los estimadores no representaría la distribución verdadera y, por lo tanto, está sesgado. Si el modelo es demasiado complejo (más parámetros para estimar), la varianza será alta, lo que significa que dado un nuevo conjunto de muestras (el conjunto de prueba), las estimaciones serán muy diferentes.

Saswata Chakravarty

More Interesting

¿Cómo está bien si me resulta difícil recordar todo después de terminar el curso de aprendizaje automático?

¿Será el futuro cercano de la visión por computadora el aprendizaje profundo pesado?

¿Cuáles son las ventajas de la distancia euclidiana y la distancia coseno, respectivamente?

¿AWS es bueno para ejecutar proyectos de aprendizaje profundo? ¿Qué tan rápido y costoso sería entrenar una red convolucional en aproximadamente 1 millón de imágenes?

¿Ubuntu es mejor con machine learning que mac?

¿Cómo encontrar un mentor que me ayude a construir una carrera en visión por computadora y aprendizaje profundo como investigador o académico? ¿Cuál es el camino definitivo hacia este objetivo?

Antes de elegir y aplicar incluso el modelo de aprendizaje automático lineal más simple, ¿qué aspectos estadísticos de los datos debo considerar?

¿Cómo se puede mejorar Google News?

¿Es posible generar datos de expresión genética artificial? Las imágenes a veces se pueden perturbar para aumentar el tamaño de las muestras con fines de aprendizaje automático.

¿Se pueden usar las redes neuronales para resolver problemas de aprendizaje no supervisados?