Puede, siempre que sea lo suficientemente razonable. Esto depende de la secuencia de [math] X [/ math] ‘s. Si las [matemáticas] X [/ matemáticas] son razonables (por ejemplo, las [matemáticas] X [/ matemáticas] son [matemáticas] 0 [/ matemáticas] o [matemáticas] 1 [/ matemáticas], o algo un poco más elegante, pero no demasiado elegante), esto incluso debería ser bastante fácil. Alimente el LSTM con las [math] X [/ math] ‘s como entradas y las [math] Y [/ math]’ s como objetivos, utilizando la diferencia al cuadrado entre la [math] Y [/ math] prevista y la esperada Uno como error. El aprendizaje recurrente en línea se adaptaría particularmente a su marco. Puede utilizar la retropropagación truncada, el aprendizaje recurrente en tiempo real o los algoritmos de aprendizaje más extraños (NoBackTrack o Aprendizaje recurrente en línea imparcial) para capacitar a su red. Todo lo anterior debería hacer el truco en mi opinión. Simplemente introduce sus datos secuencialmente, optimiza su red sobre la marcha (se puede lograr si utiliza uno de los métodos en línea mencionados) y supervisa su error hasta que esté satisfecho con su nivel de convergencia.
¿Puede LSTM u otro tipo de red neuronal recurrente aprender a extraer y representar un estado de Markov?
Related Content
Teoría de la información: ¿por qué hay una mayor probabilidad asociada con menor información?
¿Cuáles son las ventajas de la regresión logística?
¿Qué conjunto de datos público está disponible para hacer reconocimiento facial?
En principio si. En la práctica, creo que si no sobreajusta demasiado el LSTM con demasiados parámetros, se puede aprender una dinámica tan simple como [matemáticas] Y [t] = X [t] + X [t-20] [/ matemáticas], de lo contrario, el LSTM entrenado puede caer en algunos óptimos locales en el espacio de parámetros, por lo que el modelo aprendido aparecerá de manera diferente.
Si uno tiene una idea aproximada de antemano acerca de la dinámica para aprender en lugar de no saber nada sobre la dinámica, se podría usar un mecanismo de atención o conexiones residuales en el tiempo, o cualquiera que sea el nombre de la técnica, para memorizar en el LSTM, en lugar de un paso en el pasado como en un LSTM normal, 20 pasos en el pasado, para capturar esa dependencia en el tiempo cruzado.
More Interesting
Cómo entrenar a una CNN con datos insuficientes y no tan buenos
¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?
¿Cuáles son algunos campos en los que las redes neuronales artificiales aún no se han utilizado?
¿Qué debo aprender en Data Science para ayudar a mi startup?
¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?
¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?
¿Cómo combinaría Apache Spark y CUDA para implementar un marco de aprendizaje profundo?
¿Qué le gustaría en una aplicación de aprendizaje de idiomas?