¿Cómo se determina el tamaño del paso de actualización para el algoritmo de retropropagación ADADELTA?

Supongamos que x es la entrada, W es la matriz de peso yf es la función de activación (yf ‘es su derivada).
La regla de actualización SGD convencional sería (no seré riguroso en las operaciones de matriz o notación, suponiendo que comprenda SGD básico):
gradW = f ‘(Wx) * x * error // error = target_output – actual_output
deltaW = tasa_aprendizaje * gradW
W (t + 1) = W (t) + deltaW

Supongo que lo entiendes hasta aquí. Ahora, para Adadelta:
gradW = f ‘(Wx) * x * error
msGradW = rho * msGradW + (1-rho) * gradW² // ms significa “cuadrado medio”
learning_rate = sqrt (msDeltaW + epsilon) / sqrt (msGradW + epsilon) // epsilon es una pequeña constante como 1e-6
deltaW = tasa_aprendizaje * gradW
msDeltaW = rho * msDeltaW + (1-rho) * deltaW²
W (t + 1) = W (t) + deltaW

En resumen: la diferencia es que ahora mantiene un promedio continuo del cuadrado de gradientes y deltas. Su tasa de aprendizaje se obtiene como la relación entre la raíz cuadrada de ambas cantidades más una pequeña constante.

Related Content

¿En qué conjuntos de datos se formó el Sistema de traducción automática neuronal (GNMT) de Google?

¿Cuáles son algunas razones por las que algunas personas prefieren R y Matlab a Python para el aprendizaje automático?

¿Qué es mejor, el algoritmo de vecinos más cercanos a k (k-NN) o el clasificador de máquina de vectores de soporte (SVM)? ¿Qué algoritmo se usa principalmente en la práctica? ¿Qué algoritmo garantiza una detección confiable en situaciones impredecibles?

¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

¿Debo ir al análisis de datos o al aprendizaje automático?

Cómo estimar errores debido al peso de los datos

¿Aprende más de los cursos de estudio / proyecto independientes en comparación con los cursos regulares en Stanford? (CS)

More Interesting

¿Cómo decidimos la clase de clústeres generados a través del clúster k-means?

¿Hay algún solucionador que minimice la función objetivo [matemática] f (x) = \ matemática {e} ^ x [/ matemática] donde [matemática] x> 0 [/ matemática]?

¿Qué tan importante es el aprendizaje profundo en la conducción autónoma?

¿Qué es un gran blog para el aprendizaje automático?

¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)

Cómo calcular la similitud de coseno

¿Cómo funciona Hidden Markov compatible con Vector Machine?

Todos dicen que el aprendizaje automático ocupará trabajos de un gran no. de personas, ¿es esto cierto? ¿Hay algún lado positivo?

¿Hay alguna forma de llamar a las funciones de Python desde mi aplicación NodeJS para aprovechar el poder del aprendizaje automático en una aplicación Node?

¿Es posible entrenar una red neuronal para resolver VRPTW usando un algoritmo de abejas modificado?

¿Cómo funciona Delta TF-IDF?

¿Cuáles son algunas buenas ideas de proyectos para aplicaciones web de negocios que utilizan análisis de sentimientos?

¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.

¿Cuáles son las mejores mejores bibliotecas para la clasificación? ¿Cómo se comparan entre sí?

Cómo hacer que una red neuronal funcione como PCA

Web Analytics