¿Tener un conocimiento profundo del aprendizaje por refuerzo cambia su perspectiva hacia la vida? ¿Cómo?

Creo que lo primero que comienzas a observar cuando estudias RL por un tiempo es cuánto más concreta se vuelve tu conciencia de tu propia mente.

Esta es una pregunta muy, muy interesante y en la que he pensado durante un año más o menos. En primer lugar, de ninguna manera afirmo tener un conocimiento profundo del aprendizaje por refuerzo (y es muy poco probable que lo haga). Pero tengo experiencia en esta área, así que intentaré ofrecer una opinión (con suerte) perspicaz.

Es realmente interesante. Quiero decir, la idea del aprendizaje por refuerzo no es nada nuevo. BF Skinner nos contó sobre el condicionamiento operante en 1937. Por lo tanto, sabíamos que el aprendizaje en seres humanos probablemente funcionaba de acuerdo con alguna señal de recompensa positiva / negativa. En 1954, James Olds (uno de los fundadores de la neurociencia) y Peter Milner mostraron que la estimulación de ciertas partes del cerebro actúa como una señal de recompensa por el comportamiento animal. Hoy en día, sabemos que la dopamina es un agente químico primario para permitir comportamientos de aprendizaje basados ​​en recompensas / castigos. Entonces, estos aspectos del aprendizaje por refuerzo no son nada nuevo.

Pero lo que ofrece el aprendizaje por refuerzo es una forma de fundamentar todo esto dentro de un marco matemático concreto. Y esto nos permite comenzar a identificar problemas interesantes que podrían darnos una idea de lo que están haciendo nuestras propias mentes.

Por ejemplo, considere el tema de la explosión del espacio de estado. Para muchos de los problemas de RL que nos interesan, el espacio de estado explota exponencialmente con el número de variables binarias en el vector de estado. Piense en juegos como Go o rastreando objetos en un entorno tridimensional. Esto significa que la mayoría de las veces, no es factible realizar una búsqueda exhaustiva a través del espacio de estado al elegir una acción para realizar (por ejemplo, dónde elegir el próximo movimiento en el tablero o dónde mirar en su campo de visión).

Por lo tanto, debe haber algún tipo de red heurística / de predicción que estemos usando que nos permita evaluar (pensar) un pequeño conjunto de opciones / acciones. Personalmente, creo que esto es a lo que nos referimos cuando hablamos de la intuición humana . Pregúntele a un artista por qué sombreó una región particular de una imagen más oscura que el resto y le dirán que lo hicieron para agregar profundidad a la imagen. Pero, ¿cómo saben cómo hacer esto? Hay muchas, muchas maneras diferentes de sombrear una imagen para efectos de sombreado: ¿por qué eligieron hacerlo de la manera que lo hicieron? Después de una extensa línea de preguntas, la respuesta siempre resulta ser la misma: porque se sentía bien

Así que ahora podemos preguntarnos, ¿qué significa cuando algo “se siente bien “? Dentro de nuestro marco RL, podemos conjeturar que se supone que nos ayudará a lidiar con la capacidad de procesamiento computacional. Para aquellos familiarizados con la literatura de investigación, el aprendizaje profundo es algo por lo que muchos investigadores de RL han estado muy entusiasmados. alphaGo, el famoso programa de computadora que venció al campeón humano Go, se basa ampliamente en modelos de aprendizaje profundo. En particular, nos mostró que un modelo basado en redes neuronales profundas puede aprender a emular el tipo de intuición que usan los jugadores de Go humanos cuando juegan, pero dentro de una máquina .

Esto nos dice que nuestra propia intuición puede funcionar de acuerdo con un mecanismo muy similar. Más importante aún, esta intuición se aprende a través de la experiencia; se aprende haciendo algo una y otra vez y (inconscientemente) dejando que su cerebro asocie los patrones relevantes.

La gente siempre me decía que si quería ser bueno en algo, debería practicarlo mucho. Para ser sincero, este consejo nunca me convenció demasiado. Seguramente, así como algunas personas son naturalmente talentosas en algunas cosas, algunas personas deben ser naturalmente horribles en otras cosas. No fue hasta que conecté todos los puntos de pasar (mucho) tiempo pensando en RL que me di cuenta de que este consejo tenía mérito. Si continúa haciendo algo el tiempo suficiente, su mente, de hecho, con el tiempo identificará patrones útiles en la tarea que lo harán rendir mejor. Y encuentro esta idea increíblemente fascinante y trágica. Realmente estamos limitados solo por nuestra propia imaginación.

Acabo de tomar el curso de RL y para comprender el material, seguí cruzando conceptos con la vida real. Esto es lo que tengo:

1. Noción de estado, acción y objetivo : todo el propósito de su vida es maximizar la función de utilidad, en otras palabras, mejorar la calidad de su vida maximizando la recompensa. Encuentra algo que te haga feliz y sigue haciéndolo (familia, fama, sexo, comida, viajes, etc.). En cierto modo, toda tu vida podría representarse como un MDP gigante. Bueno … POMDP. Tienes muchos estados (hoy es sábado; linda chica sentada al otro lado; estoy aburrida). Para estos estados, tiene diferentes acciones disponibles (estudiar todo el día; hablar con esa chica; emborracharse). Usted observa recompensas, que podrían ser inmediatas (aprobó el curso; ella dijo “No”; hizo algunos recuerdos) y a largo plazo (consiguió un trabajo; se casó; fue a la cárcel). La mejor parte es que RL te brinda un marco para enmarcar tu vida de alguna manera. Y algoritmos, aunque mal, pero traducen.

2. Exploración vs explotación : debido a que solo vivimos durante aproximadamente 86 años, debemos equilibrar entre explorar y explotar. ¿Qué pasa si aprendo CS? ¿Qué pasa si aprendo español? ¿Qué pasa si me mudo a Europa? Puedes seguir explorando, y es bueno, ya que necesitas encontrar esa cosa que te hace más feliz. Pero morirá pronto, por lo que debe explorar lo suficiente para poder encontrar la mejor utilidad y comenzar a explotar (ejecutar acciones que maximicen su recompensa y lo hagan feliz). Quizás lo que encuentre sea subóptimo. Quizás nunca encuentre la mejor política, pero no puede permitirse el lujo de explorar hasta que muera (puede hacerlo, pero la calidad de su vida no será tan buena como si tuviera que equilibrar la exploración / explotación)

3. No se puede encontrar una política óptima : como dijo el Dr. Isbell en una de sus conferencias, “incluso si pudiera revivir mi vida, no podría encontrar una política óptima”. El espacio de estado de la vida real es tan grande que no hay forma de que podamos encontrar la política óptima. Incluso si revivieras tu vida millones de veces (como en un juego de Roy), aún no podrías encontrar esa política óptima. Por ejemplo, teóricamente, cualquiera puede convertirse en presidente de los EE. UU., Con la política correcta (se mudó a esa ciudad, fue a esa escuela, se hizo amigo de ese niño, se postuló en esa universidad, trabajó en esa empresa, etc.). Pero encontrar esa política es imposible. Además, hay una política que lo convertirá en presidente y una política que lo convertirá en una estrella de cine. ¿Pero cuál te haría realmente feliz? Tendrías que convertirte en ambos y luego comparar. Ahora imagine cuántos estados hay, cuántas acciones necesita ejecutar en un orden muy específico, cuántas cosas necesita convertirse y compare para descubrir qué es lo que más le hace feliz. Imposible. Además, un poco deprimente.

4. Factor de descuento : por otro lado, su política subóptima podría ser la política óptima. Seamos optimistas y asumamos que hay un trabajo perfecto para usted, por ejemplo, ser médico. Gran paga, respetable, ayudando a las personas y todo es increíble. Sin embargo, supongamos que valoras mucho a tu juventud (tu factor de descuento es alto), lo que significa que es muy importante que disfrutes de tu vida hoy y hagas grandes recuerdos. Luego, convertirse en médico es menos gratificante, ya que para cuando se convierte en médico, su valor se ha reducido, por lo que obtener una política subóptima es una mejor estrategia. Por ejemplo, convertirse en desarrollador de software al pasar 1 año en capacitación y disfrutar de los próximos 9 años es mejor que pasar 9 años para convertirse en médico y disfrutar el 1 año restante, si tuviera que vivir durante 10 años. Todo depende de su factor de descuento.

Dicho esto, los algoritmos RL no siempre se traducen. Por ejemplo, después de aprender sobre teoría de juegos, encontré un equilibrio de Nash para mí y para la chica que me gustaba. Todo se veía genial en el papel, así que me acerqué a ella y la invité a salir. Nash dijo que ella dirá que sí. Ella dijo “No” y se asustó un poco. El profesor dijo que no pude encontrar su función de utilidad. Estoy de acuerdo. Trabajando en ello.

La principal diferencia entre RL y la vida real, en mi humilde opinión, es que RL aprende en función de muchas iteraciones, mientras que en la vida real, solo tienes una vida. Por lo tanto, puede enfocarse en el objetivo final y ejecutar RL en su vida diaria para mejorar sus posibilidades. Sin embargo, no eres Roy y no hay forma de que puedas encontrar la política óptima, así que relájate y disfruta de tu vida.