¿Por qué el aprendizaje por refuerzo no era popular antes de que el aprendizaje profundo apareciera en escena?

Esperar lo ? Eso no es correcto. El aprendizaje por refuerzo ha sido popular y en la cobertura de los medios, ya que ha estado resolviendo diferentes problemas. También el aprendizaje por refuerzo estaba usando redes neuronales poco profundas antes de que fueran geniales. Déjame darte unos ejemplos:

TD-Gammon – Wikipedia

Helicóptero autónomo: Laboratorio de IA de la Universidad de Stanford en el que Andrew Ng trabajó mientras estaba en Stanford.

Hecho psicológico:

Preferencia de tiempo: el descuento temporal de Wikipedia es la razón por la que vemos la hora actual como más especial. Eso es lo que está sucediendo aquí también (también que nada se ha comercializado tan bien como AlphaGo). Debe escuchar a un veterano que ha estado presente todo este tiempo (como Rich Sutton en este campo) para comprender que los logros se extienden a lo largo del tiempo.

Escribir algoritmos que se aproximen a políticas óptimas es bastante difícil. Sin embargo, tener una función que actúa como una política se aproxima a través de la retroalimentación entre entrada-salida a través de una simple diferenciación que le permite abordar una variedad de problemas con mucha más facilidad, que es lo que hace el aprendizaje profundo. Se ha vuelto más popular porque mucha más gente tiene las habilidades para hacerlo en primer lugar.