La variación es cuánto cambia su algoritmo dados los nuevos datos. ¿Qué significa esto?

Examinemos esto de cerca.

Suponga que tiene un objetivo [matemática] y [/ matemática], características [matemática] x [/ matemática] y algo de espacio funcional que está considerando [matemática] F [/ matemática].

Digamos que [math] F [/ math] solo tiene una clase de funciones, que denotaremos [math] f [/ math], con parámetros [math] \ theta \ in \ Theta [/ math] ( entonces [matemática] \ Theta [/ matemática] determina [matemática] F [/ matemática]) Supongamos que no estamos siendo bayesianos acerca de todo esto también, y tenga en cuenta que voy a poner el sombrero en [matemática] \ theta [/ math] en lugar de f.

Si estamos realizando una regresión [matemática] L_2 [/ matemática], estamos minimizando el MSE, por lo que nuestros parámetros se encontrarán de alguna manera para satisfacer

[matemáticas] \ hat {\ theta} = \ arg \ min _ {\ theta \ in \ Theta} E [(Yf (X)) ^ 2] = \ arg \ min _ {\ theta \ in \ Theta} MSE_ \ theta [ /mates]

Como sabemos, sin tener en cuenta el error inherente de los datos, esto conduce a la descomposición de la variación de sesgo, ignorando [math] \ theta [/ math]:

[matemáticas] MSE = (E [Y – f (X)]) ^ 2 + E [f (X) ^ 2] – (E [f (X)]) ^ 2 [/ matemáticas]

donde el primer término es el sesgo al cuadrado y los dos últimos términos definen la varianza.

Tenga en cuenta que el sesgo es lo único en términos del objetivo, y que estamos hablando de la varianza de la función aprendida de los datos (de entrenamiento) y no de otra cosa.

No diría que la afirmación es exactamente precisa, pero parece intentar intuir el hecho de que la varianza del algoritmo ML que aprende la función solo se ve afectada por las características (los “nuevos datos” en términos de declaración), y no el objetivo. Tenga en cuenta que esto solo es cierto para la pérdida [regresiva] matemática [_matemática] en regresión o situaciones similares donde se define el MSE.

Debería ser “La variación es cuánto cambia la salida de su algoritmo para diferentes conjuntos de datos”.

Considere el siguiente escenario:

(¿Existe una representación gráfica de la compensación de sesgo-varianza en la regresión lineal?)

El algoritmo izquierdo devuelve la línea de mejor ajuste dados esos puntos, mientras que el algoritmo derecho devuelve el polinomio de mejor ajuste de grado k dados esos n puntos. (k es un número grande, como 10, en este ejemplo).

¿Qué sucede si mueve el punto más bajo hacia arriba por cierta distancia?

La línea en la figura izquierda se vuelve un poco más plana: se mueve un poco hacia arriba a la izquierda y permanece aproximadamente en la misma posición a la derecha.

Sin embargo, la curva de la derecha cambia bastante. La caída que ves entre los puntos 1 y 3 puede desaparecer por completo.

La medida cuantitativa de este cambio se llama la varianza del algoritmo. Por lo tanto, el algoritmo izquierdo tiene una pequeña varianza, mientras que el algoritmo derecho tiene una alta varianza.

More Interesting

¿Es posible resolver un problema de cambio de monedas para algunos elementos cíclicos a través de la programación dinámica si no se permite el uso de monedas adyacentes?

¿Pueden dos funciones hash criptográficas diferentes generar el mismo hash para la misma entrada?

¿Cuál es el enfoque para resolver GSS1 y GSS3 en SPOJ usando árboles de segmentos?

¿Qué es un algoritmo? ¿Es simplemente una máquina de Turing? Si no, ¿qué es?

¿Dónde puedo encontrar un algoritmo de ordenación que maneje los números dentro de las cadenas correctamente?

¿Puede un programa escribir un programa (es decir, el programa x puede identificar un algoritmo para escribir el programa y, a pesar del algoritmo z)?

¿Se usa R ampliamente hoy en día en la ciencia de datos?

¿Qué son los proyectos de código abierto? Soy muy bueno en C ++, estructuras de datos y algoritmos. ¿Puedo contribuir a algunos proyectos de código abierto? Si es así, ¿cómo? ¿Tendré que aprender algún idioma nuevo?

No puedo desempeñarme bien en los concursos de programación, incluso después de practicar mucho. ¿Qué debería hacer ahora? ¿Debo dejar de hacer programación competitiva?

¿Qué algoritmo en aprendizaje automático es el más adecuado para unir los datos entrantes nuevos con los datos existentes en la base de datos SQLite?

Los electrones son extraños. ¿Cómo conocen el camino más corto al suelo? ¿No tendrían que 'mirar' hacia adelante?

¿Cuáles son algunos algoritmos de aprendizaje automático que pueden ayudarme a encontrar las similitudes o diferencias entre las ideas textuales?

Mientras practico la programación, muchas veces no puedo escribir código para un algoritmo o pseudocódigo, incluso después de entender el algoritmo claramente en papel. ¿Cómo supero este problema?

¿Qué significa si un futuro programador apesta u odia los algoritmos de aprendizaje y las estructuras de datos?

¿Por qué los algoritmos tienen tanta importancia en la programación?