¿Cómo se eligieron las palabras sesgo y varianza (Machine Learning)?

Sesgo [1] y varianza [2] son ​​términos de estadísticas. Uno de los conceptos más importantes en estadística es la compensación de la variación de sesgo [3]. En la mayoría de las tareas de aprendizaje automático, queremos estimar una función [math] \ hat {f} (x) [/ math] dado que la función verdadera es [math] f (x) [/ math].

El sesgo nos dice cuánto es nuestro modelo sistemáticamente diferente del valor real que se estima. Y la variación captura la complejidad del modelo, es decir, si cambia ligeramente el conjunto de datos, ¿cuánto va a cambiar su modelo?

La compensación de la variación de sesgo nos dice que el error cuadrático medio entre nuestra predicción y el valor verdadero es

Una manera fácil de recordarlo es a través del siguiente diagrama.

Digamos que está utilizando un modelo lineal para ajustar sus datos. Entonces el sesgo puede ser alto porque el modelo lineal podría no ser capaz de representar la función verdadera. Sin embargo, la varianza será baja, porque si se ajusta a una gran cantidad de modelos lineales, el modelo esperado estará aproximadamente en la misma línea. Este es un caso de desajuste bajo, alto sesgo y baja varianza.

De manera similar, tiene el caso de una varianza baja de alto sesgo donde la complejidad del modelo es alta y es más propenso a un ajuste excesivo.

Notas al pie

[1] Sesgo (estadísticas) – Wikipedia

[2] Varianza – Wikipedia

[3] Compensación sesgo-varianza – Wikipedia

No estuve presente para la votación ni nada, pero puedo decirles cómo los interpreto y recuerdo.

Parcialidad

Cada vez que elige un tipo de modelo, hace la afirmación de que los datos son de una forma que ese modelo puede describir. Si elige la regresión lineal, asume que su respuesta es una combinación lineal de sus variables de entrada. El modelo de ajuste resultante está sesgado por esa suposición. Si los datos no son de la forma que asumió, el modelo no se ajustará exactamente a los datos de entrenamiento. Entonces, el sesgo es lo equivocado que estabas en la especificación de tu modelo.

Diferencia

La variación es simplemente cuánto varía el poder predictivo de su modelo entre sus datos de entrenamiento y prueba.

El sesgo y la varianza son conceptos generales en la estimación estadística. Un estimador es una función de muestras de datos extraídas de una distribución y, por lo tanto, una variable aleatoria. Por ejemplo, la media muestral es un estimador de la media real de una distribución.

El sesgo de un estimador es la diferencia entre el valor esperado del estimador y el parámetro real que está tratando de estimar. El sesgo de la media muestral es 0 ya que el valor esperado de la media muestral es 0, o en otras palabras, es un estimador imparcial.

La varianza del estimador es simplemente la varianza de la variable aleatoria del estimador.

En el contexto del aprendizaje automático, los estimadores son los parámetros del modelo, que en cierto sentido son los estimadores de los parámetros de la distribución condicional verdadera P (Y | X). Si el modelo es demasiado simple, el valor esperado de los estimadores no representaría la distribución verdadera y, por lo tanto, está sesgado. Si el modelo es demasiado complejo (más parámetros para estimar), la varianza será alta, lo que significa que dado un nuevo conjunto de muestras (el conjunto de prueba), las estimaciones serán muy diferentes.

More Interesting

¿Cómo está bien si me resulta difícil recordar todo después de terminar el curso de aprendizaje automático?

¿Será el futuro cercano de la visión por computadora el aprendizaje profundo pesado?

¿Cuáles son las ventajas de la distancia euclidiana y la distancia coseno, respectivamente?

¿AWS es bueno para ejecutar proyectos de aprendizaje profundo? ¿Qué tan rápido y costoso sería entrenar una red convolucional en aproximadamente 1 millón de imágenes?

¿Ubuntu es mejor con machine learning que mac?

¿Cómo encontrar un mentor que me ayude a construir una carrera en visión por computadora y aprendizaje profundo como investigador o académico? ¿Cuál es el camino definitivo hacia este objetivo?

Antes de elegir y aplicar incluso el modelo de aprendizaje automático lineal más simple, ¿qué aspectos estadísticos de los datos debo considerar?

¿Cómo se puede mejorar Google News?

¿Es posible generar datos de expresión genética artificial? Las imágenes a veces se pueden perturbar para aumentar el tamaño de las muestras con fines de aprendizaje automático.

¿Se pueden usar las redes neuronales para resolver problemas de aprendizaje no supervisados?

Cómo automatizar la selección de características en un conjunto de datos que involucra muchos datos no numéricos

¿Podría el Monte Carlo híbrido ser una forma efectiva de realizar búsquedas de hiperparámetros en Deep Learning?

De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?

¿De dónde obtienen los sistemas de conducción autónomos sus datos de entrenamiento?

Puede aprendizaje no supervisado puede utilizar para determinar si alguien de la escritura / arte es más creativo que la escritura / arte de la mayoría de la gente?