¿Cómo Google Deep Mind aprende de sí mismo?

El proceso se llama aprendizaje de refuerzo, que es básicamente una forma de aprender a través de la interacción con el entorno basado en un sistema de castigo / recompensa. Por ejemplo, considere un robot que puede controlar sus ruedas, como la velocidad de rotación y la dirección del movimiento con sensores para detectar la ubicación y las colisiones y un “cerebro” entrenable en forma de una red neuronal profunda para tomar decisiones.

Suponiendo que este robot está en el punto A y se requiere que el robot navegue hasta el punto B a través de un entorno bastante complejo. El truco consiste en reunir algunos datos de entrenamiento y enseñarle al robot algunos trucos sobre la navegación, esto es la inicialización. Una vez que la máquina tiene un buen punto de partida, puede probarse a sí misma en el entorno mientras recopila datos valiosos. La señal de recompensa es la distancia entre el robot y el destino B. Si esta distancia se reduce, entonces es deseable y si aumenta, entonces no es deseable, la red neuronal profunda o “cerebro” debe aprender a reducir esta distancia eligiendo algunas acciones basadas en entorno y estado actual del robot basado en la experiencia.

La red neuronal intentará predecir el próximo movimiento exploratorio, como la dirección y la velocidad de movimiento, etc., según el estado actual del robot medido por los sensores. Una vez que se ejecute este movimiento, el sistema recopilará información nueva que se puede utilizar para entrenar la red neuronal utilizando un método de entrenamiento en línea como el descenso de gradiente estocástico. Esto puede mejorar o empeorar la capacidad de la red neuronal para predecir el movimiento correcto, pero después de muchas iteraciones, errores en términos humanos, el robot eventualmente aprenderá a navegar en ese entorno con facilidad.

El algoritmo utilizado en DeepMind y el brevemente presentado anteriormente se llama aprendizaje de refuerzo profundo. El robot es el agente, el estado del entorno es estocástico ya que puede cambiar de forma impredecible y se mide por los sensores del robot y la distancia entre el robot y el destino final es la recompensa. Todo el proceso se conoce como un proceso de decisión de Markov. La política, es decir, las reglas para tomar decisiones en el aprendizaje de refuerzo profundo están codificadas por una red neuronal profunda. El sistema DL que aprendió a jugar Breakout usando el aprendizaje de refuerzo profundo es como se muestra en el siguiente video.

El puntaje define la recompensa y hay un conjunto de acciones que el sistema debe tomar para aumentar el puntaje y evitar morir demasiado temprano en el juego. El sistema explorará tales acciones utilizando el aprendizaje de refuerzo simplemente cometiendo errores y aprendiendo de ellos.

Espero que esto ayude.

More Interesting

¿Qué pasaría si una IA fuerte estuviera disponible con una licencia de código abierto?

¿Por qué Oslo no crea empleados con inteligencia artificial para reemplazar a los inmigrantes?

¿Qué problemas no se pueden resolver o son realmente difíciles de resolver sin el aprendizaje automático?

¿Deberíamos esperar un gobierno totalmente digital y asistido por IA en el futuro?

Cómo escribir un bot de chat de Microsoft Lync

¿Existe una inteligencia artificial que salve a personas irrelevantes?

¿Es posible que la CIA, la NSA o cualquier otra agencia de inteligencia / seguridad de todo el mundo estén haciendo una investigación clasificada de inteligencia artificial y el resto del mundo no lo sepa?

¿Cómo se compara Wolfram | Alpha con el conocimiento verdadero?

¿Son los robots el futuro del cuidado de los ancianos?

¿Cuáles son algunos acertijos de inteligencia artificial interesantes y simples?

¿Cuáles son las diferencias funcionales entre un procesador de computadora diseñado para IA (por ejemplo, Tensor / TPU) y un procesador ordinario (CPU) o GPU?

¿Cuán relevantes son los temas de la web semántica y la recuperación de información para el aprendizaje automático?

¿De qué manera pueden trabajar juntos Q-learning y las redes neuronales?

¿Qué tan probable es que AI tome el trabajo de los programadores? ¿Hay perspectivas de ese tipo en el horizonte?

Para un principiante en Python, ¿se requiere desarrollo web para ingresar al aprendizaje automático / IA?