¿Puede LSTM u otro tipo de red neuronal recurrente aprender a extraer y representar un estado de Markov?

Puede, siempre que sea lo suficientemente razonable. Esto depende de la secuencia de [math] X [/ math] ‘s. Si las [matemáticas] X [/ matemáticas] son ​​razonables (por ejemplo, las [matemáticas] X [/ matemáticas] son ​​[matemáticas] 0 [/ matemáticas] o [matemáticas] 1 [/ matemáticas], o algo un poco más elegante, pero no demasiado elegante), esto incluso debería ser bastante fácil. Alimente el LSTM con las [math] X [/ math] ‘s como entradas y las [math] Y [/ math]’ s como objetivos, utilizando la diferencia al cuadrado entre la [math] Y [/ math] prevista y la esperada Uno como error. El aprendizaje recurrente en línea se adaptaría particularmente a su marco. Puede utilizar la retropropagación truncada, el aprendizaje recurrente en tiempo real o los algoritmos de aprendizaje más extraños (NoBackTrack o Aprendizaje recurrente en línea imparcial) para capacitar a su red. Todo lo anterior debería hacer el truco en mi opinión. Simplemente introduce sus datos secuencialmente, optimiza su red sobre la marcha (se puede lograr si utiliza uno de los métodos en línea mencionados) y supervisa su error hasta que esté satisfecho con su nivel de convergencia.

En principio si. En la práctica, creo que si no sobreajusta demasiado el LSTM con demasiados parámetros, se puede aprender una dinámica tan simple como [matemáticas] Y [t] = X [t] + X [t-20] [/ matemáticas], de lo contrario, el LSTM entrenado puede caer en algunos óptimos locales en el espacio de parámetros, por lo que el modelo aprendido aparecerá de manera diferente.

Si uno tiene una idea aproximada de antemano acerca de la dinámica para aprender en lugar de no saber nada sobre la dinámica, se podría usar un mecanismo de atención o conexiones residuales en el tiempo, o cualquiera que sea el nombre de la técnica, para memorizar en el LSTM, en lugar de un paso en el pasado como en un LSTM normal, 20 pasos en el pasado, para capturar esa dependencia en el tiempo cruzado.

More Interesting

¿Cómo se hace el cambio de C ++ a Python? Me siento más cómodo con C ++ y lo he estado usando para hacer la mayor parte de mi programación; Me parece que lleva mucho tiempo y Python hace las cosas rápidamente. ¿Cuál es la mejor manera de hacer el cambio?

Cómo entrenar a una CNN con datos insuficientes y no tan buenos

¿Cuáles son las diversas aplicaciones del aprendizaje automático en ciencias de la salud / ciencias de la vida?

Tengo problemas para mejorar el rendimiento de mi red neuronal a medida que aumento el número de unidades, ¿cuál podría ser el problema?

¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿Cuáles son algunos campos en los que las redes neuronales artificiales aún no se han utilizado?

¿Qué debo aprender en Data Science para ayudar a mi startup?

¿Por qué el aprendizaje automático se usa mucho para la clasificación de anuncios de Google y menos para su clasificación de búsqueda? ¿Qué llevó a esta diferencia?

¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?

¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?

¿Cómo combinaría Apache Spark y CUDA para implementar un marco de aprendizaje profundo?

¿Se puede utilizar el aprendizaje automático para mejorar la situación de los agricultores en los países en desarrollo? En caso afirmativo, ¿cuál sería su enfoque?

Cómo aplicar mis conocimientos de aprendizaje automático para invertir en el mercado de valores indio

¿Qué le gustaría en una aplicación de aprendizaje de idiomas?