¿Por qué los LSTM generalmente se entrenan con backprop y no con EKF?

Existen muchos métodos alternativos para optimizar los RNN:

Backprop
Kalman Filters
RTRL (solo descenso de gradiente). Buen tutorial que describe los primeros tres: http: //minds.jacobs-university.d…
(Los siguientes son los más recientes ..)
Métodos espectrales [1603.00954] Entrenamiento de redes neuronales recurrentes de entrada-salida a través de métodos espectrales
Alineación de retroalimentación directa [1609.01596] La alineación de retroalimentación directa proporciona aprendizaje en redes neuronales profundas (esta es genial, ya que no necesita gradientes ni backprop).
Gradientes sintéticos desacoplaron las interfaces neuronales usando gradientes sintéticos | DeepMind (este es uno de los papeles más famosos de 2016)
Uso del aprendizaje por refuerzo para entrenar las redes neuronales recurrentes de ajuste de RNN con el aprendizaje por refuerzo (papel muy interesante nuevamente)

Sin embargo, Backprop sigue siendo el mejor para entrenarlos como un algoritmo general y tiene muchas herramientas disponibles para codificar. La mayoría de los RNN de última generación son entrenados por backprop. El resto se ha visto en algunas investigaciones con algunos documentos sobre ellos y tomará múltiples resultados brillantes antes de que se vuelvan tan comunes como backprop.

Aprendizaje automáticoMemoria a largo plazoRedes neuronales artificiales

Related Content

¿Por qué confiamos en la aleatoriedad de la búsqueda aleatoria en la optimización de hiperparámetros?

¿Se puede desarrollar un bot de chat usando Tensorflow? En caso afirmativo, ¿cómo empiezo a codificar en el mismo?

¿Cómo se puede mejorar Google News?

¿Existe alguna base biológica para las redes de confrontación generativas?

¿Hay algún lugar en la ciencia donde la biblioteca estadística de Python sea pobre o inmadura en comparación con R?

¿Por qué tenemos que activar el GPS mientras compartimos archivos en SHAREit en algunos teléfonos de marca?

¿Qué tipo de investigación de usuarios debe hacerse antes de diseñar un sitio web completamente nuevo?

Al final del día, la gente se preocupa por la hora del reloj de pared y la simplicidad. Backprop es bastante difícil de superar. Otro factor importante es la popularidad, el backprop está disponible en todos los paquetes de software.

Los enfoques de filtro de Kalman me parecen interesantes, pero alguien tendría que mostrar un beneficio real sobre el backprop para que la gente lo recoja.

Es posible que necesite un trabajo adicional para ponerse al día con todos los trucos y mejoras que se inventaron para backprop, como el impulso, la deserción y la normalización de lotes.

Utkarsh Saxena

More Interesting

¿Qué modo de Anaconda se debe usar para los algoritmos de aprendizaje automático?

¿Cuáles son las soluciones de producción efectivas para el reconocimiento de entidades nombradas?

¿Qué temas del conjunto de datos son buenos para interactuar?

¿Es c # una buena opción para el aprendizaje automático de producción?

¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?

Cómo identificar la ubicación de cualquier mensaje de texto usando ML o NLP

¿Debería Facebook usar el aprendizaje automático para identificar a los usuarios con potencial de convertirse en un asesino en masa?

¿Qué puede hacer el aprendizaje automático además de la clasificación? ¿Hay más?

¿Existe una lista de conferencias de minería de datos / aprendizaje automático organizadas en los Estados Unidos?

¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

¿Qué tan buenas son mis posibilidades de conseguir un trabajo de científico de datos con un doctorado en el campo de la visión por computadora?

¿Es posible engañar a un automóvil autónomo para interpretar una señal de alto (como lo percibe el ojo humano) como una señal de velocidad?

¿Cuál es el significado de muchas sinapsis entre dos neuronas en la red neuronal?

¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?

Web Analytics