Si continúa leyendo ese documento [1] encontrará la oración
“El uso de castigos y recompensas puede, en el mejor de los casos, ser parte del proceso de enseñanza. Hablando en términos generales, si el maestro no tiene otros medios para comunicarse con el alumno, la cantidad de información que puede llegar a él no excede el número total de recompensas y castigos aplicados. Cuando un niño haya aprendido a repetir “Casabianca”, probablemente se sentirá muy dolorido ”
Entonces pensó en tener recompensas y castigos como una forma de proporcionar información, pero casi de inmediato notó las limitaciones de la misma. La supervisión también podría ser necesaria. Lo más sorprendente es que ya se imaginaba que enseñar computadoras debería ser como enseñar a un niño, algo que no es corriente incluso hoy en día.
- ¿Por qué los humanos no viven vidas felices incluso después de millones de inventos? ¿Por qué estamos perdiendo el tiempo con inventos entonces?
- ¿Hay / hay algún invento de la India que usemos en la vida cotidiana?
- ¿Es posible crear y utilizar terremotos artificiales como arma de guerra / terrorismo?
- Si usar o inventar cualquier forma de transporte que no sea caminar sobre dos pies fuera ilegal y esa ley nunca fuera revocada, ¿cómo serían los mapas?
- ¿Cuáles son algunos ejemplos de algunos inventos menos conocidos de los romanos?
Las raíces del aprendizaje reforzado en términos computacionales estarán en la programación dinámica de Richard Bellman un par de años después, y mucho más tarde con el aprendizaje TD.
Notas al pie
[1] https://oup.silverchair-cdn.com/…