Lo que estás diciendo parece similar a las redes de escalera. En realidad es muy prometedor.
De este sitio:
Introducción al aprendizaje semi-supervisado con redes de escalera
- ¿Cómo beneficiará la inteligencia artificial al mundo de los profesionales de TI en Sudáfrica en el futuro?
- ¿Se puede usar la computación humana gratuita para inventar servicios inteligentes de computación humana (por ejemplo, Duolingo)?
- ¿Qué rama del aprendizaje profundo sería más apropiada para estudiar la visión por computadora o el procesamiento del lenguaje natural considerando las oportunidades de trabajo?
- ¿Podemos usar el algoritmo de aprendizaje de refuerzo Q-learning para hacer frente a los nuevos estados del entorno creados?
- Los robots persiguen nuestros trabajos. ¿Qué podemos hacer?
Los pasos involucrados en la implementación de la red Ladder son típicamente los siguientes:
- Tome un modelo feedforward que sirva de aprendizaje supervisado como codificador. La red consta de 2 rutas de codificador: codificador limpio y dañado. La única diferencia es que el codificador dañado agrega ruido gaussiano en todas las capas.
- Agregue un decodificador que pueda invertir las asignaciones en cada capa del codificador y admita el aprendizaje sin supervisión. El decodificador utiliza una función de eliminación de ruido para reconstruir las activaciones de cada capa dada la versión dañada. El objetivo en cada capa es la versión limpia de la activación y la diferencia entre la reconstrucción y la versión limpia sirve como el costo de eliminación de ruido de esa capa.
- El costo supervisado se calcula a partir de la salida del codificador dañado y el objetivo de salida. El costo no supervisado es la suma del costo de eliminación de ruido de todas las capas escaladas por un hiperparámetro que denota la importancia de cada capa. El costo final es la suma del costo supervisado y no supervisado.
- Capacite a toda la red en un entorno totalmente etiquetado o semi-supervisado utilizando técnicas de optimización estándar (como el descenso de gradiente estocástico) para minimizar el costo.
Otra posibilidad es usar las salidas B para generar entradas A como las redes neuronales recurrentes.
En cuanto a su pregunta sobre qué dirección es mejor, diría que depende de lo que esté tratando de hacer. Para la clasificación, debe aprender el mapeo de la entrada A a la salida B, pero para las tareas generativas necesita generar entradas A del tipo definido por la salida B.