El software de computadora solo recientemente se volvió lo suficientemente inteligente como para reconocer objetos en fotografías. Ahora, los investigadores de Stanford que utilizan el aprendizaje automático han creado un sistema que da el siguiente paso, escribiendo una historia simple de lo que está sucediendo en cualquier imagen digital. El sistema puede analizar una imagen desconocida y explicarla con palabras y frases que tengan sentido “, dijo Fei -Fei Li, profesor de ciencias de la computación y director del Laboratorio de Inteligencia Artificial de Stanford. Este es un hito importante “, dijo Li. “Es la primera vez que tenemos un sistema de visión por computadora que podría contar una historia básica sobre una imagen desconocida.
Los humanos, dijo Li, crean historias mentales que ponen en contexto lo que vemos. “Contar una historia sobre una imagen resulta ser un elemento central de la inteligencia visual humana, pero hasta ahora ha resultado muy difícil hacerlo con algoritmos informáticos”, dijo.
En el corazón del sistema de Stanford hay algoritmos que permiten al sistema mejorar su precisión escaneando escena tras escena, buscando patrones y luego usando la acumulación de escenas descritas previamente para extrapolar lo que se representa en la siguiente imagen desconocida.
“Es casi como aprende un bebé”, dijo Li.
Finalmente, estos avances conducirán a sistemas robóticos que pueden navegar en situaciones desconocidas. A corto plazo, los sistemas basados en máquinas que pueden discernir la historia en una imagen permitirán a las personas buscar archivos de fotos o videos y encontrar imágenes específicas.
“La mayor parte del tráfico en Internet son archivos de datos visuales, y esto podría ser materia oscura en lo que respecta a las herramientas de búsqueda actuales”, dijo Li. “La visión por computadora busca iluminar esa materia oscura”.
El nuevo documento de Stanford describe dos años de esfuerzo que se derivan de la investigación que Li ha estado realizando durante una década. Su trabajo se basa en los avances que han llegado, a veces lentamente, en los últimos 50 años desde que el científico del MIT Seymour Papert convocó un “proyecto de verano” para crear visión por computadora en 1966.
Concebida durante los primeros días de la inteligencia artificial, esa línea de tiempo demostró ser extremadamente optimista, ya que los informáticos lucharon por replicar en máquinas lo que tardó millones de años en evolucionar en seres vivos. Los investigadores tardaron 20 años en crear sistemas que pudieran dar el primer paso relativamente simple de reconocer objetos discretos en fotografías.
Más recientemente, la aparición de Internet ha ayudado a impulsar la visión por computadora. Por un lado, el crecimiento de las cargas de fotos y videos ha creado una demanda de herramientas para clasificar, buscar y tamizar información visual. Por otro lado, los algoritmos sofisticados que se ejecutan en computadoras potentes han llevado a sistemas electrónicos que pueden entrenarse a sí mismos realizando tareas repetitivas, mejorando a medida que avanzan.
Los informáticos llaman a esto aprendizaje automático, y Li comparó esto con cómo un niño aprende fútbol al salir y patear la pelota. Un entrenador puede demostrar cómo patear y comentar la técnica del niño. Pero la mejora se produce desde adentro, ya que los ojos, el cerebro, los nervios y los músculos del niño hacen pequeños ajustes.
Los algoritmos de aprendizaje automático guían este proceso de mejora en los sistemas basados en computadora. Cómo aprenden los humanos es un proceso sutil que no se entiende completamente. Investigadores como Li están desarrollando formas de crear retroalimentación positiva en bucles en máquinas mediante la inserción de instrucciones matemáticas en el software.
Los últimos algoritmos de Li incorporan el trabajo que sus investigadores y otros han realizado. Esto incluye entrenar su sistema en un diccionario visual, utilizando una base de datos de más de 14 millones de objetos. Cada objeto se describe mediante un término matemático, o vector, que permite que la máquina reconozca la forma la próxima vez que se encuentre. Esas definiciones matemáticas están vinculadas a las palabras que los humanos usarían para describir los objetos, ya sean autos, zanahorias, hombres, montañas o cebras.
Li desempeñó un papel de liderazgo en la creación de esta herramienta de capacitación, el proyecto ImageNet, pero su trabajo actual va mucho más allá de memorizar este diccionario visual.
El nuevo algoritmo de visión por computadora de su equipo se entrenó buscando patrones en un diccionario visual, pero esta vez un diccionario de escenas, una tarea más complicada que solo mirar objetos.
Esta era una base de datos más pequeña, compuesta por decenas de miles de imágenes. Cada escena se describe de dos maneras: en términos matemáticos que la máquina podría usar para reconocer escenas similares y también en una frase que los humanos entenderían. Por ejemplo, una imagen podría ser “gato se sienta en el teclado”, mientras que otra podría ser “niña monta a caballo en el campo”.
Estas dos bases de datos, una de objetos y otra de escenas, sirvieron como material de capacitación. El algoritmo de aprendizaje automático de Li analizó los patrones en estas imágenes predefinidas y luego aplicó su análisis a imágenes desconocidas y utilizó lo que había aprendido para identificar objetos individuales y proporcionar un contexto rudimentario. En otras palabras, contó una historia simple sobre la imagen.
Por ejemplo, si el sistema de visión por computadora de Li discernió los contornos matemáticos de un mamífero peludo de cuatro patas acostado sobre un objeto, podría contar una historia como “el perro yace en la alfombra”. Si las matemáticas describían una criatura bípeda junto a un cuadrúpedo, el software podría definir esto como “el niño está cerca de la vaca”.
noticias de Coutesy-Stanford