¿Por qué los LSTM generalmente se entrenan con backprop y no con EKF?

Existen muchos métodos alternativos para optimizar los RNN:

  1. Backprop
  2. Kalman Filters
  3. RTRL (solo descenso de gradiente). Buen tutorial que describe los primeros tres: http: //minds.jacobs-university.d…
    (Los siguientes son los más recientes ..)
  4. Métodos espectrales [1603.00954] Entrenamiento de redes neuronales recurrentes de entrada-salida a través de métodos espectrales
  5. Alineación de retroalimentación directa [1609.01596] La alineación de retroalimentación directa proporciona aprendizaje en redes neuronales profundas (esta es genial, ya que no necesita gradientes ni backprop).
  6. Gradientes sintéticos desacoplaron las interfaces neuronales usando gradientes sintéticos | DeepMind (este es uno de los papeles más famosos de 2016)
  7. Uso del aprendizaje por refuerzo para entrenar las redes neuronales recurrentes de ajuste de RNN con el aprendizaje por refuerzo (papel muy interesante nuevamente)

Sin embargo, Backprop sigue siendo el mejor para entrenarlos como un algoritmo general y tiene muchas herramientas disponibles para codificar. La mayoría de los RNN de última generación son entrenados por backprop. El resto se ha visto en algunas investigaciones con algunos documentos sobre ellos y tomará múltiples resultados brillantes antes de que se vuelvan tan comunes como backprop.

Al final del día, la gente se preocupa por la hora del reloj de pared y la simplicidad. Backprop es bastante difícil de superar. Otro factor importante es la popularidad, el backprop está disponible en todos los paquetes de software.

Los enfoques de filtro de Kalman me parecen interesantes, pero alguien tendría que mostrar un beneficio real sobre el backprop para que la gente lo recoja.

Es posible que necesite un trabajo adicional para ponerse al día con todos los trucos y mejoras que se inventaron para backprop, como el impulso, la deserción y la normalización de lotes.

More Interesting

¿Qué modo de Anaconda se debe usar para los algoritmos de aprendizaje automático?

¿Cuáles son las soluciones de producción efectivas para el reconocimiento de entidades nombradas?

¿Qué temas del conjunto de datos son buenos para interactuar?

¿Es c # una buena opción para el aprendizaje automático de producción?

¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?

Cómo identificar la ubicación de cualquier mensaje de texto usando ML o NLP

¿Debería Facebook usar el aprendizaje automático para identificar a los usuarios con potencial de convertirse en un asesino en masa?

¿Qué puede hacer el aprendizaje automático además de la clasificación? ¿Hay más?

¿Existe una lista de conferencias de minería de datos / aprendizaje automático organizadas en los Estados Unidos?

¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

¿Qué tan buenas son mis posibilidades de conseguir un trabajo de científico de datos con un doctorado en el campo de la visión por computadora?

¿Es posible engañar a un automóvil autónomo para interpretar una señal de alto (como lo percibe el ojo humano) como una señal de velocidad?

¿Cuál es el significado de muchas sinapsis entre dos neuronas en la red neuronal?

¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?