¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

Al leer el documento de la mente profunda, las razones pueden haber sido las siguientes, cada una derivada de una forma u otra del uso del aprendizaje profundo dentro del escenario de aprendizaje por refuerzo:

  • Se desempeña mucho mejor que el aprendizaje de refuerzo regular para problemas de control (lo que usted dice en la pregunta, los detalles se enseñaron en Berkeley a más tardar en 2013 y de hecho se ven aquí).
  • Debido al uso del aprendizaje profundo, es más genérico; no requiere ingeniería de características. Aunque en cierta medida, esta afirmación de ser genérico podría tener un alcance limitado, ya que trata con escenarios visuales 2D sobre los cuales se sabe que el aprendizaje profundo es el más destacado, en comparación con otros posibles escenarios de interés, que pueden requerir o no un mucho más trabajo para adaptarse. (por ejemplo, las topologías y arquitecturas de redes neuronales para tareas visuales no suelen ser útiles “tal cual” para otros dominios).
  • Había sido novedoso poner el poder del aprendizaje profundo en un dominio donde la influencia del aprendizaje profundo había sido bastante insignificante y relativamente ineficiente antes.
  • Además de la primera viñeta, los autores afirman que el rendimiento resultante fue simplemente mucho mejor que cualquier otra cosa anterior, para los problemas / juegos evaluados en ese artículo.

Algunos hechos relevantes: el artículo fue publicado en el mismo año que usted menciona, y tiene ~ 250 citas según Google Scholar hasta la fecha (otro artículo de IA del mismo año en un campo diferente pero directamente relacionado obtuvo ~ 2000 citas). Ciertamente no es una planta rodadora, pero no estoy seguro acerca de “estelar” allí.

Creo que el último logro del grupo DeepMind en Google, al jugar el juego Go, un logro que se basó en la integración del aprendizaje profundo con el aprendizaje de refuerzo, trajo todo este asunto de RL nuevamente al centro de atención, o simplemente despertaron el apetito de otros investigadores para tocar el aprendizaje profundo y RL juntos de maneras útiles.

Supongo que el artículo de Deepmind ganó tanta popularidad porque en realidad mostró que el programa aprendió a jugar pacman usando la misma información visual que los humanos usaríamos para jugar. Simplemente usaron las imágenes de la pantalla del juego como entrada para el algoritmo de aprendizaje Q y entrenaron a la red en estos valores de píxeles. La red aprendió solo de esta entrada visual y en realidad resultó en un buen rendimiento después de un número apropiado de épocas. No diseñaron características explícitamente para el algoritmo de aprendizaje (características como qué tan cerca está la comida o qué tan lejos está el fantasma). Las capturas de pantalla fueron suficientes para que la red supiera qué medidas tomar según el estado actual del entorno.

More Interesting

¿Cómo se puede modelar la interacción Radar y Jammer a través del aprendizaje automático?

¿Dónde puedo encontrar corpus de texto médico en inglés para entrenar mis datos?

Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

¿Cuántos datos son suficientes para entrenar un modelo NN profundo?

¿Cómo podemos minimizar el tiempo de inactividad de la GPU cuando utilizamos TensorFlow?

¿Qué piensa la gente del siguiente documento que señala los límites del aprendizaje de extremo a extremo?

¿Qué área de la PNL es más prometedora y gana más tracción en la industria: la PNL sobre los datos de voz frente a texto?

¿Cuáles son algunas formas de evitar la maldición de la dimensionalidad?

¿Cómo entrenamos un clasificador para el cual solo tenemos datos de entrenamiento positivos (no hay datos negativos o sin etiquetar disponibles)?

¿Debería un científico de datos novato centrarse en conceptos matemáticos o herramientas?

¿Qué es un modelo oculto de Markov - Red neuronal artificial (HMM-ANN)?

¿Cuáles son algunos de los documentos fundamentales en el aprendizaje automático / algoritmos analíticos?

¿Qué tan difícil es para un estudiante de pregrado ser aceptado en un grupo de investigación en la universidad?

¿En qué se diferencia el estado oculto (h) de la memoria (c) en una celda LSTM?