¿Qué son las redes neuronales progresivas?

DeepMind anunció que construyeron un sistema que podría vencer a alrededor de 50 juegos de Atari con su IA, pero cada vez que venció a un juego, el sistema necesitaba entrenar nuevamente para luego vencer al siguiente juego. Entonces llegaron a la conclusión de que no se puede entrenar la máquina en reglas de juegos variantes a la vez, ya que las pautas podrían terminar interfiriendo entre sí.

Todo este tema de ProgNN rodea el concepto de cómo hacer que una máquina realice múltiples tareas.

La solución de Deepminds para esto fue conectar sistemas separados de aprendizaje profundo para que puedan transmitir ciertos bits de información para que la diferencia en los comandos se almacene por separado para que la recuerde.

TL; DR: Son esquemas que pueden entrenar NN en un conjunto individualmente de manera secuencial donde una salida de todos los NN entrenados se almacenan y actualizan en un centro de información. La comunicación entre las NN se mantiene indirectamente a través de IC (centro de información) , que en última instancia reduce la interacción entre las NN.

Dado que en Reinforcement Learning, hemos entrenado diferentes redes para abordar diferentes juegos o tareas, un método importante es el ajuste fino, que es muy popular en el reconocimiento de objetos en la visión por computadora, al aplicar el ajuste fino puede usar una arquitectura preformada y cambiar es un poco para adaptarse a su problema actual y entrenarlo.

Aunque el ajuste fino puede recuperar el rendimiento experto de la arquitectura pre-entrenada, descarta la función aprendida anterior; es decir, cuando usted ha entrenado a un agente en un nuevo juego mediante el ajuste fino, el agente olvida los juegos anteriores que entrenaron antes.

Entonces, ¿cómo hacer que los agentes sean inmunes al olvido y aprovechar el conocimiento previo? Eso es redes neuronales progresivas, ¡puede abordar tareas múltiples!

Las redes neuronales progresivas retienen un conjunto de modelos pre-entrenados durante el entrenamiento y aprenden conexiones laterales de estos para extraer características útiles para la nueva tarea.

Aquí hay una arquitectura simple de ProgNN, la imagen es del documento

Suponga que cuando entrena una nueva tarea, aquí obtiene una sola columna de capas de red y la entrena, y luego entra otra tarea para que se construya y entrene una nueva columna de capas de red con la función aprendida anterior por conexiones laterales, como puede ver. las flechas en la imagen, y finalmente entra la última tarea, la entrena con características anteriores como lo hizo la columna dos. Para obtener más detalles sobre las anotaciones, puede leer el documento. ¡Es fácil de entender!

Si desea aprender ideas básicas sobre el aprendizaje de transferencia y el ajuste, haga clic en Redes neuronales convolucionales CS231n para reconocimiento visual.

More Interesting

¿Qué conocimientos de matemática / estadística y CS debo dominar (no matemático / stat / CS, pero graduado en ingeniería) para carrera / investigación en aprendizaje automático?

¿Por qué debería obtener el doble de RAM que la memoria total de mi GPU para construir una plataforma de aprendizaje profundo?

¿Es cierto que la cantidad de datos es, con mucho, la ventaja competitiva más importante para las empresas de aprendizaje automático (por ejemplo, en automóviles autónomos)?

¿Cómo está estudiando Conner Davis el aprendizaje automático?

¿Cuáles son algunos buenos ejemplos de reducción de dimensionalidad no lineal en datos de texto?

¿Cuáles son algunas habilidades matemáticas altamente relevantes que se requieren si quiero comenzar a investigar en algoritmos de Machine Learning?

¿Qué es un perceptrón?

¿Cuándo necesitamos tener un mayor número de unidades ocultas que el número de unidades de entrada y viceversa?

Estoy aprendiendo aprendizaje profundo, ¿por qué es útil la matriz y qué es el cálculo?

Si existieran interfaces neuronales, ¿cuáles serían las aplicaciones civiles? ¿Cuántos tendría, por qué?

Al predecir un resultado binario, ¿cómo toman en cuenta las personas el orden en que ocurren las entradas?

¿Cómo se usa el modelo predictivo en la regresión logística?

¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

¿Cuál puede ser un buen proyecto de curso de 3 meses relacionado con el procesamiento del habla y el aprendizaje automático?

¿Cuál es la relación entre K-means y PCA?