¿Alguien ha probado el cableado cíclico de la red neuronal?

Esto se llama una red neuronal recurrente , como ya han señalado varias personas. Existe una gran cantidad de permutaciones sobre este tema con respecto a qué capa (s) están retroalimentando el sistema. Una situación más común es cuando la capa oculta se retroalimenta (recurrencia oculta a oculta). El poder de una red recurrente, en comparación con una simple red de alimentación, radica en su capacidad para capturar patrones que de otro modo no hubieran sido posibles. George Hinton da un gran ejemplo de esto en su curso Coursera sobre redes neuronales al ilustrar cómo se puede usar una configuración oculta a oculta para realizar la suma binaria. La adición de dos números puede parecernos muy simple (las calculadoras simples han estado haciendo esto durante décadas), pero el punto de este simple ejemplo es que la red está capturando un patrón de sumar números binarios (cómo se llevan los dígitos en cada columna ) y no solo realiza la asignación de entradas a salidas. Aquí hay un enlace al video: Coursera.

Las redes recurrentes son especialmente adecuadas para dos tipos de situaciones en las que las redes neuronales simples de alimentación pueden tener dificultades:
1. Caracterización de secuencias
2. Caracterización de patrones temporales.

Si bien pueden parecer al principio diferentes fenómenos, los términos “propagación hacia atrás a través del tiempo” y “una capa que se retroalimenta a sí misma (u otra capa”) son realmente una misma matemática.

Un modelo interesante y quizás menos ampliamente implementado (hasta ahora) es la máquina Boltzmann. Una máquina profunda de Boltzmann (con múltiples capas ocultas) puede capturar en teoría muchos de los mismos tipos de patrones secuenciales / temporales que una red recurrente puede capturar. Donde la máquina de Boltzmann se vuelve realmente interesante es en situaciones en las que los vectores de datos de entrada están incompletos. Este fue el caso en la competencia de Netflix que desafió a los solucionadores a desarrollar un modelo para predecir las calificaciones de las películas de los espectadores, y también es el caso en muchos problemas de la vida real. El equipo ganador utilizó un promedio de muchos modelos de máquinas Boltzmann para resolver este problema. Este es un buen artículo que ilustra cómo las máquinas de Boltzmann pueden brillar:
Máquina de Boltzmann restringida para el filtrado colaborativo de Salakhutdinov, Mnih y Hinton.

Las redes neuronales fallan donde faltan datos. Las redes neuronales recurrentes, a diferencia de los sistemas binarios como las redes Hopfield y las máquinas Boltzmann, no se basan en la energía y, por lo tanto, tienen el potencial de comportarse de manera caótica. Este es su mayor inconveniente, en mi opinión. La capacidad de muchas máquinas Boltzmann diferentes para usarse para cada vector de entrada único, y luego poder combinar estos modelos , es una propiedad notable que hace que estos modelos sean atractivos para resolver una gama de problemas de la vida real.

Puede interpretar libremente esta figura de varias maneras, ya que no especifica detalles del algoritmo subyacente, como la secuencia de transmisiones o las reglas de actualización de peso.

Una interpretación, que usted menciona, es que la red neuronal funciona igual que una red de retroalimentación ordinaria, pero que la retroalimentación proporciona un recuerdo del ejemplo anterior. Esto es útil si los ejemplos son muestras de una serie de tiempo y los circuitos de retroalimentación muestran cómo las redes recurrentes, como las redes de estado de eco, retienen una memoria de eventos pasados. Sin embargo, para una red de avance, dicha información generalmente se codificará directamente en la entrada, por ejemplo, especificando la derivada de tiempo o un promedio móvil como entrada, si es necesario.

Otra interpretación es que la red está prediciendo el valor de una entrada faltante . El trabajo en sincronización caótica ha demostrado que la dinámica de un sistema se puede reconstruir con precisión con solo información parcial, digamos las dos primeras entradas en la figura anterior. Sin embargo, la reconstrucción de la entrada faltante puede tener un efecto estabilizador, incluso si es el propio sistema de predicción el que realiza la reconstrucción.

Además de las dos respuestas dadas, me gustaría dirigir su atención a la red Hopfield. Es una red neuronal recurrente como menciona Benjamin, y creo que también podría ser una memoria asociativa bidireccional como dice la publicación de Lucian. Está destinado a modelar [de manera simplista] la memoria humana. Se deriva del modelo de mecánica estadística de Ising (el electrón gira dentro de un imán y cómo interactúan entre sí). Además, la máquina Boltzmann es la versión estocástica de la red Hopfield y no es determinista.

He tratado de hacer exactamente eso con DBN-RBM para analizar series temporales (presión arterial y insulina-glucosa). Lo que estaba tratando de lograr era construir un modelo de regresión que fuera capaz de rastrear y ‘pronosticar’ eventos hiper / hipo tensivos / glucémicos. Para esta implementación en particular, los resultados mejoraron ligeramente (aproximadamente 5% de mejora en MSE) de modo que el esfuerzo y la complejidad añadidos no dieron resultado.

A pesar de este revés, estoy convencido de que este enfoque es prometedor para analizar series temporales (si tengo el conjunto de datos correcto :-)).

Espero que esto ayude.

No estoy seguro de si para este tipo de arquitectura se utiliza este enfoque, pero para una memoria asociativa bidireccional (sin capa oculta, solo capas de entrada / salida con funciones de activación lineal) los valores de salida se alimentan a la capa de entrada.

Busque redes neuronales recurrentes.

Creo que esto se llama una red neuronal recurrente. Consulte las citas aquí (Red neuronal recurrente) para ver algunos ejemplos de experimentos que las utilizan.

More Interesting

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo después de los 30 años?

¿Alguien puede darme un mapa para aprender Deep learning?

¿Cuál es la mejor manera de aprender el aprendizaje automático, en línea o sin conexión?

He estado aprendiendo la red neuronal de retroalimentación y la propagación hacia atrás durante 3 meses y todavía no puedo entenderlo, ¿qué debo hacer?

¿Cómo implementa una red neuronal de retroalimentación la propagación inversa?

¿Dónde caen los sistemas de recomendación en los enfoques de aprendizaje automático?

¿Las startups ofrecen trabajos orientados a la investigación?

¿Cuántas de las noticias sobre IA y DL en este momento son sobre nuevas innovaciones y cuánto sobre aplicaciones? ¿Cuánto de eso es bombo? ¿Habrá una meseta pronto?

¿Cuál es la mejor estrategia para un oponente de IA para predecir la ubicación y golpear la pelota en un juego de Pong?

¿La normalización de lotes hará la diferencia al entrenar con tamaño de lote = 1?

¿Son las redes de tipo neuronal el único juego real en la ciudad o podemos desarrollar máquinas sofisticadas de IA que no piensen como los humanos?

¿Se puede resolver el problema de cauvery utilizando algoritmos de aprendizaje automático?

¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?

¿Cuáles son las ventajas de la distancia euclidiana y la distancia coseno, respectivamente?

¿Cómo se pueden adaptar los sistemas de recomendación para recomendar elementos que atraigan a todos en un grupo, en lugar de a un solo individuo?