¿Cómo Google Deep Mind aprende de sí mismo? La tecnología cambia la vida futura

El proceso se llama aprendizaje de refuerzo, que es básicamente una forma de aprender a través de la interacción con el entorno basado en un sistema de castigo / recompensa. Por ejemplo, considere un robot que puede controlar sus ruedas, como la velocidad de rotación y la dirección del movimiento con sensores para detectar la ubicación y las colisiones y un “cerebro” entrenable en forma de una red neuronal profunda para tomar decisiones.

Suponiendo que este robot está en el punto A y se requiere que el robot navegue hasta el punto B a través de un entorno bastante complejo. El truco consiste en reunir algunos datos de entrenamiento y enseñarle al robot algunos trucos sobre la navegación, esto es la inicialización. Una vez que la máquina tiene un buen punto de partida, puede probarse a sí misma en el entorno mientras recopila datos valiosos. La señal de recompensa es la distancia entre el robot y el destino B. Si esta distancia se reduce, entonces es deseable y si aumenta, entonces no es deseable, la red neuronal profunda o “cerebro” debe aprender a reducir esta distancia eligiendo algunas acciones basadas en entorno y estado actual del robot basado en la experiencia.

La red neuronal intentará predecir el próximo movimiento exploratorio, como la dirección y la velocidad de movimiento, etc., según el estado actual del robot medido por los sensores. Una vez que se ejecute este movimiento, el sistema recopilará información nueva que se puede utilizar para entrenar la red neuronal utilizando un método de entrenamiento en línea como el descenso de gradiente estocástico. Esto puede mejorar o empeorar la capacidad de la red neuronal para predecir el movimiento correcto, pero después de muchas iteraciones, errores en términos humanos, el robot eventualmente aprenderá a navegar en ese entorno con facilidad.

El algoritmo utilizado en DeepMind y el brevemente presentado anteriormente se llama aprendizaje de refuerzo profundo. El robot es el agente, el estado del entorno es estocástico ya que puede cambiar de forma impredecible y se mide por los sensores del robot y la distancia entre el robot y el destino final es la recompensa. Todo el proceso se conoce como un proceso de decisión de Markov. La política, es decir, las reglas para tomar decisiones en el aprendizaje de refuerzo profundo están codificadas por una red neuronal profunda. El sistema DL que aprendió a jugar Breakout usando el aprendizaje de refuerzo profundo es como se muestra en el siguiente video.

El puntaje define la recompensa y hay un conjunto de acciones que el sistema debe tomar para aumentar el puntaje y evitar morir demasiado temprano en el juego. El sistema explorará tales acciones utilizando el aprendizaje de refuerzo simplemente cometiendo errores y aprendiendo de ellos.

Espero que esto ayude.