Creo que lo primero que comienzas a observar cuando estudias RL por un tiempo es cuánto más concreta se vuelve tu conciencia de tu propia mente.
Esta es una pregunta muy, muy interesante y en la que he pensado durante un año más o menos. En primer lugar, de ninguna manera afirmo tener un conocimiento profundo del aprendizaje por refuerzo (y es muy poco probable que lo haga). Pero tengo experiencia en esta área, así que intentaré ofrecer una opinión (con suerte) perspicaz.
Es realmente interesante. Quiero decir, la idea del aprendizaje por refuerzo no es nada nuevo. BF Skinner nos contó sobre el condicionamiento operante en 1937. Por lo tanto, sabíamos que el aprendizaje en seres humanos probablemente funcionaba de acuerdo con alguna señal de recompensa positiva / negativa. En 1954, James Olds (uno de los fundadores de la neurociencia) y Peter Milner mostraron que la estimulación de ciertas partes del cerebro actúa como una señal de recompensa por el comportamiento animal. Hoy en día, sabemos que la dopamina es un agente químico primario para permitir comportamientos de aprendizaje basados en recompensas / castigos. Entonces, estos aspectos del aprendizaje por refuerzo no son nada nuevo.
- ¿Puedo usar el aprendizaje profundo para aprender el aprendizaje profundo?
- ¿Por qué asumiríamos que los datos son iid cuando no lo son?
- ¿Las computadoras cuánticas mostrarían una aceleración para el aprendizaje automático?
- ¿Son las computadoras mejores pensadores visuales?
- ¿Existen aplicaciones prácticas útiles y serias de redes neuronales que se ejecutan localmente en aplicaciones de teléfonos inteligentes móviles?
Pero lo que ofrece el aprendizaje por refuerzo es una forma de fundamentar todo esto dentro de un marco matemático concreto. Y esto nos permite comenzar a identificar problemas interesantes que podrían darnos una idea de lo que están haciendo nuestras propias mentes.
Por ejemplo, considere el tema de la explosión del espacio de estado. Para muchos de los problemas de RL que nos interesan, el espacio de estado explota exponencialmente con el número de variables binarias en el vector de estado. Piense en juegos como Go o rastreando objetos en un entorno tridimensional. Esto significa que la mayoría de las veces, no es factible realizar una búsqueda exhaustiva a través del espacio de estado al elegir una acción para realizar (por ejemplo, dónde elegir el próximo movimiento en el tablero o dónde mirar en su campo de visión).
Por lo tanto, debe haber algún tipo de red heurística / de predicción que estemos usando que nos permita evaluar (pensar) un pequeño conjunto de opciones / acciones. Personalmente, creo que esto es a lo que nos referimos cuando hablamos de la intuición humana . Pregúntele a un artista por qué sombreó una región particular de una imagen más oscura que el resto y le dirán que lo hicieron para agregar profundidad a la imagen. Pero, ¿cómo saben cómo hacer esto? Hay muchas, muchas maneras diferentes de sombrear una imagen para efectos de sombreado: ¿por qué eligieron hacerlo de la manera que lo hicieron? Después de una extensa línea de preguntas, la respuesta siempre resulta ser la misma: porque se sentía bien
Así que ahora podemos preguntarnos, ¿qué significa cuando algo “se siente bien “? Dentro de nuestro marco RL, podemos conjeturar que se supone que nos ayudará a lidiar con la capacidad de procesamiento computacional. Para aquellos familiarizados con la literatura de investigación, el aprendizaje profundo es algo por lo que muchos investigadores de RL han estado muy entusiasmados. alphaGo, el famoso programa de computadora que venció al campeón humano Go, se basa ampliamente en modelos de aprendizaje profundo. En particular, nos mostró que un modelo basado en redes neuronales profundas puede aprender a emular el tipo de intuición que usan los jugadores de Go humanos cuando juegan, pero dentro de una máquina .
Esto nos dice que nuestra propia intuición puede funcionar de acuerdo con un mecanismo muy similar. Más importante aún, esta intuición se aprende a través de la experiencia; se aprende haciendo algo una y otra vez y (inconscientemente) dejando que su cerebro asocie los patrones relevantes.
La gente siempre me decía que si quería ser bueno en algo, debería practicarlo mucho. Para ser sincero, este consejo nunca me convenció demasiado. Seguramente, así como algunas personas son naturalmente talentosas en algunas cosas, algunas personas deben ser naturalmente horribles en otras cosas. No fue hasta que conecté todos los puntos de pasar (mucho) tiempo pensando en RL que me di cuenta de que este consejo tenía mérito. Si continúa haciendo algo el tiempo suficiente, su mente, de hecho, con el tiempo identificará patrones útiles en la tarea que lo harán rendir mejor. Y encuentro esta idea increíblemente fascinante y trágica. Realmente estamos limitados solo por nuestra propia imaginación.