Al leer el documento de la mente profunda, las razones pueden haber sido las siguientes, cada una derivada de una forma u otra del uso del aprendizaje profundo dentro del escenario de aprendizaje por refuerzo:
- Se desempeña mucho mejor que el aprendizaje de refuerzo regular para problemas de control (lo que usted dice en la pregunta, los detalles se enseñaron en Berkeley a más tardar en 2013 y de hecho se ven aquí).
- Debido al uso del aprendizaje profundo, es más genérico; no requiere ingeniería de características. Aunque en cierta medida, esta afirmación de ser genérico podría tener un alcance limitado, ya que trata con escenarios visuales 2D sobre los cuales se sabe que el aprendizaje profundo es el más destacado, en comparación con otros posibles escenarios de interés, que pueden requerir o no un mucho más trabajo para adaptarse. (por ejemplo, las topologías y arquitecturas de redes neuronales para tareas visuales no suelen ser útiles “tal cual” para otros dominios).
- Había sido novedoso poner el poder del aprendizaje profundo en un dominio donde la influencia del aprendizaje profundo había sido bastante insignificante y relativamente ineficiente antes.
- Además de la primera viñeta, los autores afirman que el rendimiento resultante fue simplemente mucho mejor que cualquier otra cosa anterior, para los problemas / juegos evaluados en ese artículo.
Algunos hechos relevantes: el artículo fue publicado en el mismo año que usted menciona, y tiene ~ 250 citas según Google Scholar hasta la fecha (otro artículo de IA del mismo año en un campo diferente pero directamente relacionado obtuvo ~ 2000 citas). Ciertamente no es una planta rodadora, pero no estoy seguro acerca de “estelar” allí.
Creo que el último logro del grupo DeepMind en Google, al jugar el juego Go, un logro que se basó en la integración del aprendizaje profundo con el aprendizaje de refuerzo, trajo todo este asunto de RL nuevamente al centro de atención, o simplemente despertaron el apetito de otros investigadores para tocar el aprendizaje profundo y RL juntos de maneras útiles.
- ¿Cómo afectaría la homo / heteroscedasticidad al análisis de regresión?
- ¿Cómo funciona un mecanismo de atención en el aprendizaje profundo?
- ¿Se puede utilizar el aprendizaje automático para generar mapas de forma orgánica con solo usar datos de satélite de Google?
- Como programador novato, ¿realmente necesito conocer toda la documentación de un lenguaje o marco de programación para comenzar, o lo aprenderé acumulativamente mientras trabajo en un proyecto pequeño?
- Support Vector Machines: ¿Cómo elijo un parámetro de escala de kernel?