En descenso gradiente,
[matemática] \ Theta_ {j} = \ Theta_ {j} – a / m \ cdot \ sum_ {i = 1} ^ {m} (h (x_ {i}) – y_ {i}) [/ math] [/ math] [ matemáticas] \ cdot x ^ {i} _ {j} [/ matemáticas] donde [matemáticas] m [/ matemáticas] es el número de ejemplos de entrenamiento, [matemáticas] a [/ matemáticas] es la tasa de aprendizaje, [matemáticas] h [/ matemáticas] es una hipótesis y [matemáticas] (x, y) [/ matemáticas] son datos de entrenamiento
Si las funciones no se escalan [matemática] x ^ {i} _ {j} [/ matemática] será alta para entidades con valores grandes, lo que provocará un gran cambio en [matemática] \ Theta_ {j} [/ matemática]. Por lo tanto, a pesar de que estamos haciendo pequeños cambios en otros valores [matemáticos] \ Theta [/ matemáticos], esto no garantizará que se acerquen los mínimos locales de la función de costos y también puede causar divergencia. El escalado de características se usa como una medida para evitar la situación anterior.
- ¿Cuál es una explicación intuitiva de las expectativas de la correlación Radamacher?
- ¿Existe alguna implementación del modelo de atención en el flujo tensorial?
- ¿Hay algún paquete de código abierto para aplicar ML a las publicaciones de Twitter?
- ¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?
- ¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?