Intente implementar un modelo de lenguaje de aprendizaje profundo por su cuenta, primero como RNN y luego como LSTM o GRU (sería útil comprender cómo construir de manera abstracta este código para admitir las tres posibilidades).
Puede consultar la gran introducción de Andrej (La efectividad irracional de las redes neuronales recurrentes) para obtener motivación, datos de muestra y una implementación de referencia. Pero es útil pasar por todas las matemáticas para la propagación hacia atrás, primero de un RNN (en realidad primero para un NN avanzado si aún no lo ha hecho), luego el LSTM y GRU más complejos.
Puede codificarlo en un lenguaje simple como Python (con Numpy), para evitar tener que pensar en las GPU. Pero en algún momento eso se convertirá en un cuello de botella de velocidad, por lo que en algún momento puede hacer la transición para usar un kit de herramientas o API como Theano / Torch.
- ¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?
- ¿Cómo se diseñan las redes neuronales artificiales y qué teoremas académicos las respaldan?
- ¿Cuál es el atractivo de Python para ML y aplicaciones científicas en general?
- ¿Cuál es el mejor algoritmo para descubrir características bien correlacionadas?
- ¿Qué caminos puede tomar un ingeniero mecánico para comenzar a trabajar con robótica, aprendizaje automático e inteligencia artificial?
Juegue con él por muchos problemas simples, como lo hizo Andrej, y trate de tener una idea de lo que puede y no puede hacer. Es muy fascinante.