Sesgo [1] y varianza [2] son términos de estadísticas. Uno de los conceptos más importantes en estadística es la compensación de la variación de sesgo [3]. En la mayoría de las tareas de aprendizaje automático, queremos estimar una función [math] \ hat {f} (x) [/ math] dado que la función verdadera es [math] f (x) [/ math].
El sesgo nos dice cuánto es nuestro modelo sistemáticamente diferente del valor real que se estima. Y la variación captura la complejidad del modelo, es decir, si cambia ligeramente el conjunto de datos, ¿cuánto va a cambiar su modelo?
La compensación de la variación de sesgo nos dice que el error cuadrático medio entre nuestra predicción y el valor verdadero es
- ¿Por qué debería uno aprender el aprendizaje automático desde cero en lugar de aprender a usar las bibliotecas disponibles?
- ¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?
- ¿Qué nuevas empresas están buscando actualmente científicos de datos?
- ¿Qué métodos de aprendizaje automático lo llevarán al top 10 de las competencias de kaggle?
- ¿Cuál es el mayor problema no resuelto para los sistemas de recomendación?
Una manera fácil de recordarlo es a través del siguiente diagrama.
Digamos que está utilizando un modelo lineal para ajustar sus datos. Entonces el sesgo puede ser alto porque el modelo lineal podría no ser capaz de representar la función verdadera. Sin embargo, la varianza será baja, porque si se ajusta a una gran cantidad de modelos lineales, el modelo esperado estará aproximadamente en la misma línea. Este es un caso de desajuste bajo, alto sesgo y baja varianza.
De manera similar, tiene el caso de una varianza baja de alto sesgo donde la complejidad del modelo es alta y es más propenso a un ajuste excesivo.
Notas al pie
[1] Sesgo (estadísticas) – Wikipedia
[2] Varianza – Wikipedia
[3] Compensación sesgo-varianza – Wikipedia