Supongo que está preguntando sobre el trabajo de Deepmind para jugar juegos de Atari y Maluuba para interpretar a la Sra. Pac-Man.
Los sistemas de inteligencia artificial actuales que juegan videojuegos utilizan el aprendizaje de refuerzo profundo. Lo que básicamente le permite a la IA realizar diferentes acciones (por ejemplo, moverse hacia arriba, abajo a la izquierda, derecha, saltar) y necesitamos asignar recompensas a estas acciones. La IA solo necesita encontrar la “mejor” política que tenga la mayor recompensa, es decir, para cada estado en el que se encuentre la IA, elegirá la acción que conducirá a la mayor recompensa a largo plazo.
Al igual que si la IA muere en el juego, entonces debemos asignar un conjunto negativo al conjunto de acciones que conducen a su muerte, y si la IA llega al final de un nivel, le daremos un valor positivo a esas acciones.
- ¿Cuáles son las principales áreas de investigación en el departamento de IA en MIT / UCB / CMU / Stanford?
- ¿AI comenzará a automatizar la escritura de software (incluidos ML e AI)? Si es así, ¿qué debe hacer un desarrollador para seguir siendo relevante y empleable?
- Con el advenimiento de la inteligencia artificial, ¿puede pronosticar qué pasará con las personas que tienen un coeficiente intelectual de menos de 150?
- ¿Por qué la memoria en las redes neuronales no está contenida en los nodos individuales de cada red neuronal?
- ¿Los ingenieros de TI están calificados para trabajar en campos como la robótica y la inteligencia artificial?
Para entrenar un sistema como este, generalmente solo dejamos que su computadora funcione durante unos días o semanas para que la IA experimente y aprenda diferentes conjuntos de acciones para encontrar la que conduce a la que lleva a la mejor acumulación de recompensas.
Si desea obtener más conocimientos técnicos, la mayoría de los sistemas RL utilizan redes Q profundas que utilizan una variante de la ecuación de Bellman o una forma de gradientes de políticas.