¿Cómo se determina el tamaño del paso de actualización para el algoritmo de retropropagación ADADELTA?

Supongamos que x es la entrada, W es la matriz de peso yf es la función de activación (yf ‘es su derivada).
La regla de actualización SGD convencional sería (no seré riguroso en las operaciones de matriz o notación, suponiendo que comprenda SGD básico):
gradW = f ‘(Wx) * x * error // error = target_output – actual_output
deltaW = tasa_aprendizaje * gradW
W (t + 1) = W (t) + deltaW

Supongo que lo entiendes hasta aquí. Ahora, para Adadelta:
gradW = f ‘(Wx) * x * error
msGradW = rho * msGradW + (1-rho) * gradW² // ms significa “cuadrado medio”
learning_rate = sqrt (msDeltaW + epsilon) / sqrt (msGradW + epsilon) // epsilon es una pequeña constante como 1e-6
deltaW = tasa_aprendizaje * gradW
msDeltaW = rho * msDeltaW + (1-rho) * deltaW²
W (t + 1) = W (t) + deltaW

En resumen: la diferencia es que ahora mantiene un promedio continuo del cuadrado de gradientes y deltas. Su tasa de aprendizaje se obtiene como la relación entre la raíz cuadrada de ambas cantidades más una pequeña constante.

More Interesting

¿Cómo decidimos la clase de clústeres generados a través del clúster k-means?

¿Hay algún solucionador que minimice la función objetivo [matemática] f (x) = \ matemática {e} ^ x [/ matemática] donde [matemática] x> 0 [/ matemática]?

¿Qué tan importante es el aprendizaje profundo en la conducción autónoma?

¿Qué es un gran blog para el aprendizaje automático?

¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)

Cómo calcular la similitud de coseno

¿Cómo funciona Hidden Markov compatible con Vector Machine?

Todos dicen que el aprendizaje automático ocupará trabajos de un gran no. de personas, ¿es esto cierto? ¿Hay algún lado positivo?

¿Hay alguna forma de llamar a las funciones de Python desde mi aplicación NodeJS para aprovechar el poder del aprendizaje automático en una aplicación Node?

¿Es posible entrenar una red neuronal para resolver VRPTW usando un algoritmo de abejas modificado?

¿Cómo funciona Delta TF-IDF?

¿Cuáles son algunas buenas ideas de proyectos para aplicaciones web de negocios que utilizan análisis de sentimientos?

¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.

¿Cuáles son las mejores mejores bibliotecas para la clasificación? ¿Cómo se comparan entre sí?

Cómo hacer que una red neuronal funcione como PCA