¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

Al leer el documento de la mente profunda, las razones pueden haber sido las siguientes, cada una derivada de una forma u otra del uso del aprendizaje profundo dentro del escenario de aprendizaje por refuerzo:

Se desempeña mucho mejor que el aprendizaje de refuerzo regular para problemas de control (lo que usted dice en la pregunta, los detalles se enseñaron en Berkeley a más tardar en 2013 y de hecho se ven aquí).
Debido al uso del aprendizaje profundo, es más genérico; no requiere ingeniería de características. Aunque en cierta medida, esta afirmación de ser genérico podría tener un alcance limitado, ya que trata con escenarios visuales 2D sobre los cuales se sabe que el aprendizaje profundo es el más destacado, en comparación con otros posibles escenarios de interés, que pueden requerir o no un mucho más trabajo para adaptarse. (por ejemplo, las topologías y arquitecturas de redes neuronales para tareas visuales no suelen ser útiles “tal cual” para otros dominios).
Había sido novedoso poner el poder del aprendizaje profundo en un dominio donde la influencia del aprendizaje profundo había sido bastante insignificante y relativamente ineficiente antes.
Además de la primera viñeta, los autores afirman que el rendimiento resultante fue simplemente mucho mejor que cualquier otra cosa anterior, para los problemas / juegos evaluados en ese artículo.

Algunos hechos relevantes: el artículo fue publicado en el mismo año que usted menciona, y tiene ~ 250 citas según Google Scholar hasta la fecha (otro artículo de IA del mismo año en un campo diferente pero directamente relacionado obtuvo ~ 2000 citas). Ciertamente no es una planta rodadora, pero no estoy seguro acerca de “estelar” allí.

Creo que el último logro del grupo DeepMind en Google, al jugar el juego Go, un logro que se basó en la integración del aprendizaje profundo con el aprendizaje de refuerzo, trajo todo este asunto de RL nuevamente al centro de atención, o simplemente despertaron el apetito de otros investigadores para tocar el aprendizaje profundo y RL juntos de maneras útiles.

¿Cómo se calcula la pérdida WARP de la estadística de orden K para aprender a clasificar las recomendaciones?

¿Qué les falta a las redes de confrontación para que realmente modelen una representación del mundo?

¿Cómo se usa la optimización bayesiana en la práctica?

¿Qué son los algoritmos recurrentes de redes neuronales?

¿Cuáles son algunas industrias emergentes similares a las computadoras personales en la década de 1980?

¿El modelado predictivo es una moda pasajera?

Supongo que el artículo de Deepmind ganó tanta popularidad porque en realidad mostró que el programa aprendió a jugar pacman usando la misma información visual que los humanos usaríamos para jugar. Simplemente usaron las imágenes de la pantalla del juego como entrada para el algoritmo de aprendizaje Q y entrenaron a la red en estos valores de píxeles. La red aprendió solo de esta entrada visual y en realidad resultó en un buen rendimiento después de un número apropiado de épocas. No diseñaron características explícitamente para el algoritmo de aprendizaje (características como qué tan cerca está la comida o qué tan lejos está el fantasma). Las capturas de pantalla fueron suficientes para que la red supiera qué medidas tomar según el estado actual del entorno.

Shamit Lal

More Interesting

¿Cómo se puede modelar la interacción Radar y Jammer a través del aprendizaje automático?

¿Dónde puedo encontrar corpus de texto médico en inglés para entrenar mis datos?

Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

¿Cuántos datos son suficientes para entrenar un modelo NN profundo?

¿Cómo podemos minimizar el tiempo de inactividad de la GPU cuando utilizamos TensorFlow?

¿Qué piensa la gente del siguiente documento que señala los límites del aprendizaje de extremo a extremo?

¿Qué área de la PNL es más prometedora y gana más tracción en la industria: la PNL sobre los datos de voz frente a texto?

¿Cuáles son algunas formas de evitar la maldición de la dimensionalidad?

¿Cómo entrenamos un clasificador para el cual solo tenemos datos de entrenamiento positivos (no hay datos negativos o sin etiquetar disponibles)?