Una IA mejoró su puntaje en Civilization II al “leer” el manual. ¿Se puede aplicar esta metodología en otro lugar?

ABSOLUTAMENTE, DEMOSTRABLE SÍ.

Los “investigadores de IA” de los que hablas son Regina Barzilay [1] y su laboratorio (aunque principalmente SRK Branavan [2], una de sus estudiantes de posgrado). Y es posible que se sorprenda al saber que en realidad tienen una serie de papeles fuera de este molde; de ​​hecho, el papel Civ marca una expansión de técnicas similares que ya existían .

El primero en causar un gran impacto fue el aprendizaje de refuerzo para las instrucciones de mapeo de acciones [3], el mejor documento de ACL 2009 ; En resumidas cuentas, toman un corpus de guías de solución de problemas de Windows ( por ejemplo , “Cómo instalar una impresora”, que puede tener instrucciones como, haga clic en x, seleccione y) y luego use el aprendizaje de refuerzo para averiguar qué frases corresponden a qué botones, acciones, etc. Utilizan la API de Windows para hacer cosas como hacer clic, con una función de costo integrada que penaliza las acciones incorrectas, y con el tiempo esto les permite aprender sobre guías de solución de problemas en general [4]. Un punto importante en todo esto pareció impresionar a casi todos en ese momento:

  • NO se basa en datos anotados. IIRC probaron algunos esquemas diferentes, incluida la capacitación sobre datos parcialmente anotados y datos completamente no anotados. El algoritmo de aprendizaje fue capaz de aprender con datos no anotados tan cerca como con datos parcialmente anotados.

Si el caso de uso no está claro en este momento, Barzilay et al lo cubren bastante bien en la parte en la que tratan la motivación del problema. Específicamente: la automatización de las guías de solución de problemas puede mejorar dramáticamente las experiencias de las personas con las computadoras.

Este es solo un ejemplo, por supuesto, pero parece ser bueno, y no creo que sea incorrecto. Además, como Alan Guo señala correctamente, enfoques similares pueden automatizar otras tareas tediosas, engorrosas y costosas, como arreglar automóviles. De mi cabeza se me ocurren quizás una docena más de buenos usos, pero el tiempo dirá cuánto de eso es factible o prácticamente útil. Mientras tanto, personalmente tiendo a pensar que es un ángulo de investigación prometedor.

Soy nuevo aqui. Deje comentarios si siente que tiene algo que decir que me ayudará a ser un mejor contribuyente.

[1] http://people.csail.mit.edu/regina/
[2] http://people.csail.mit.edu/bran…
[2] http://people.csail.mit.edu/regi…
[4] NOTA: Barzilay et al utilizan una aproximación ruidosa para determinar si una tarea
se completa, ya que la API de Windows proporciona una capacidad limitada para discernir
cuando algo se hace correctamente

¡Esto podría aplicarse en todo tipo de lugares si dejas volar tu imaginación! Por ejemplo, podríamos tener robots de uso general que puedan “aprender” habilidades especializadas leyendo manuales técnicos. ¿Necesitas arreglar tu auto? Haga que su robot lea un libro sobre la reparación de automóviles. ¿Cansado de jugar con tus amigos en el ajedrez? Haz que tu robot lea un libro sobre ajedrez y juegue contigo. Por supuesto, esto aún estaría lejos en el futuro, ya que también requiere desarrollos en robótica.

Esencialmente, sin embargo, tener una IA que pueda aprender leyendo debe mejorar enormemente su rendimiento y tasa de mejora. Solo piensa en ello. Si su automóvil se descompuso y usted tuvo que arreglarlo usted mismo, ¿cuánto tiempo más tardaría si tuviera que resolver todo por su cuenta que si leyera los manuales técnicos apropiados?

Lo que hicieron es muy interesante, pero la metodología tiene algunas limitaciones.
Un extracto del periódico [1] dice:

Nuestro método opera en el Montecarlo
marco de búsqueda, y aprende ambos análisis de texto
y estrategias de juego basadas solo en el entorno
realimentación. […]
Los recursos naturales disponibles donde una población
resuelve los efectos de su capacidad para producir alimentos y bienes.
Construye tu ciudad en una llanura o plaza de pastizales con
un río que lo atraviesa si es posible.

Este es un extracto del manual del usuario del juego.
Civilization II.2 Este texto describe las ubicaciones de los juegos.
donde la acción “construir-ciudad” se puede aplicar de manera efectiva.
Un jugador estocástico que no tiene acceso.
a este texto tendría que obtener este conocimiento el
manera difícil: intentaría repetidamente esta acción en
una miríada de estados, aprendiendo así la caracterización
de pares prometedores de estado-acción basados ​​en el
resultados observados del juego. En juegos con gran estado
espacios, horizontes de planificación largos y ramificaciones altas
factores, este enfoque puede ser prohibitivamente lento y
ineficaz. Un algoritmo con acceso al texto,
sin embargo, podría aprender correlaciones entre palabras en
el texto y los atributos del juego, por ejemplo, la palabra “río”
y lugares con ríos en el juego, aprovechando así
estrategias descritas en el texto para seleccionar mejor las acciones

Luego, el documento continúa utilizando el puntaje del juego como una función de utilidad y tratando de maximizar esto, como un mecanismo de retroalimentación en el aprendizaje. Esto tiene algunas ventajas sobre el aprendizaje supervisado y el documento es una lectura muy interesante. Sin embargo, tenga en cuenta que la prueba y el error son inherentes al método y esto no desaparecerá en el corto plazo. Está bien para aprender ajedrez o juegos de computadora, pero si se tratara de aprender a arreglar un auto al leer el manual, destrozaría muchos autos antes de aprender incluso a cambiar una bujía.

[1] http://people.csail.mit.edu/regi…

More Interesting

¿Qué documentos debo leer para conocer el estado del arte en el aprendizaje automático en las transmisiones, incluidos los análisis y la predicción?

¿Importa la CPU de una PC de aprendizaje profundo si tengo una gran GPU?

¿Es mentalmente saludable permitir que los niños jueguen con juegos artificialmente inteligentes y osos de peluche que interactúan con ellos?

¿Cuáles son los problemas reales de control de los manipuladores de robots?

¿Cómo podemos implementar la factorización matricial a través de redes neuronales?

Cómo aprender IA para mi juego

¿Cómo combina Eureqa bloques de construcción matemáticos en ecuaciones?

¿Cuál resultará ser el fenómeno más estable en el universo, el aumento de la entropía o el aumento de la inteligencia?

¿Cómo presentarme al aprendizaje automático? ¿Cuáles son los requisitos previos que necesito antes de saltar al aprendizaje automático?

¿AI comenzará a automatizar la escritura de software (incluidos ML e AI)? Si es así, ¿qué debe hacer un desarrollador para seguir siendo relevante y empleable?

¿La implementación de documentos también es la forma correcta de hacer investigación de IA? ¿Le permitirá a alguien tener nuevas ideas?

¿Cuáles son algunos problemas abiertos en el aprendizaje automático para geodatos?

¿Crees que la inteligencia artificial miente?

¿Cuál es el estado del arte con respecto a la IA y la simulación para un juego de estrategia?

Conciencia: ¿Cómo puede la inteligencia artificial tener la capacidad de tener un mayor nivel de razonamiento, autoconciencia y creatividad?