Examinemos esto de cerca.
Suponga que tiene un objetivo [matemática] y [/ matemática], características [matemática] x [/ matemática] y algo de espacio funcional que está considerando [matemática] F [/ matemática].
Digamos que [math] F [/ math] solo tiene una clase de funciones, que denotaremos [math] f [/ math], con parámetros [math] \ theta \ in \ Theta [/ math] ( entonces [matemática] \ Theta [/ matemática] determina [matemática] F [/ matemática]) Supongamos que no estamos siendo bayesianos acerca de todo esto también, y tenga en cuenta que voy a poner el sombrero en [matemática] \ theta [/ math] en lugar de f.
- Un profesor me dijo que no me molestara en aprender muchos lenguajes de programación sino que me enfocara solo en C ++, estructuras de datos y algoritmos, ¿tiene razón?
- Dado un gráfico ponderado de N nodos, ¿existe un algoritmo que calcule la ruta más corta entre todos los nodos?
- ¿Cómo funcionan los algoritmos comerciales?
- ¿Cuál es la forma más eficiente para que un programador principiante entienda las tablas hash y los intentos?
- ¿Cuáles son todos los algoritmos que debe saber para funcionar bien en Codeforces?
Si estamos realizando una regresión [matemática] L_2 [/ matemática], estamos minimizando el MSE, por lo que nuestros parámetros se encontrarán de alguna manera para satisfacer
[matemáticas] \ hat {\ theta} = \ arg \ min _ {\ theta \ in \ Theta} E [(Yf (X)) ^ 2] = \ arg \ min _ {\ theta \ in \ Theta} MSE_ \ theta [ /mates]
Como sabemos, sin tener en cuenta el error inherente de los datos, esto conduce a la descomposición de la variación de sesgo, ignorando [math] \ theta [/ math]:
[matemáticas] MSE = (E [Y – f (X)]) ^ 2 + E [f (X) ^ 2] – (E [f (X)]) ^ 2 [/ matemáticas]
donde el primer término es el sesgo al cuadrado y los dos últimos términos definen la varianza.
Tenga en cuenta que el sesgo es lo único en términos del objetivo, y que estamos hablando de la varianza de la función aprendida de los datos (de entrenamiento) y no de otra cosa.
No diría que la afirmación es exactamente precisa, pero parece intentar intuir el hecho de que la varianza del algoritmo ML que aprende la función solo se ve afectada por las características (los “nuevos datos” en términos de declaración), y no el objetivo. Tenga en cuenta que esto solo es cierto para la pérdida [regresiva] matemática [_matemática] en regresión o situaciones similares donde se define el MSE.