¿Alan Turing inventó el aprendizaje por refuerzo?

Si continúa leyendo ese documento [1] encontrará la oración

“El uso de castigos y recompensas puede, en el mejor de los casos, ser parte del proceso de enseñanza. Hablando en términos generales, si el maestro no tiene otros medios para comunicarse con el alumno, la cantidad de información que puede llegar a él no excede el número total de recompensas y castigos aplicados. Cuando un niño haya aprendido a repetir “Casabianca”, probablemente se sentirá muy dolorido ”

Entonces pensó en tener recompensas y castigos como una forma de proporcionar información, pero casi de inmediato notó las limitaciones de la misma. La supervisión también podría ser necesaria. Lo más sorprendente es que ya se imaginaba que enseñar computadoras debería ser como enseñar a un niño, algo que no es corriente incluso hoy en día.

Las raíces del aprendizaje reforzado en términos computacionales estarán en la programación dinámica de Richard Bellman un par de años después, y mucho más tarde con el aprendizaje TD.

Notas al pie

[1] https://oup.silverchair-cdn.com/…