Si los poderes informáticos aumentaran diez veces, ¿cómo afectaría la investigación actual de IA?

Como se menciona en la respuesta de Rajat Monga a ¿Cuáles son los principales cuellos de botella para hacer que los sistemas de aprendizaje profundo sean más efectivos (a partir de 2016)? el cálculo continúa siendo un cuello de botella para el progreso en IA

Un experimento que lleva 1 día en lugar de 1 semana o 1 hora en lugar de 1 día, cambia el juego de cuántos experimentos se pueden hacer y cuántas nuevas ideas se intentaron. Esto todavía es investigación, por lo que muchas nuevas ideas tienen que ser probadas y mejoradas, antes de que tengan éxito y empujen el campo. Tener un cómputo más potente permite a los investigadores hacer más experimentos del mismo tipo, o entrenar modelos más grandes que toman el mismo tiempo para entrenar.

Nota divertida: entrenar a un modelo siempre lleva 1 semana ; ese parece ser el límite que los investigadores están dispuestos a esperar para obtener buenos resultados.

Creo que podemos aprovechar incluso 1000 veces las mejoras en cómputo para hacer mejoras significativas en la IA

Este es un ejercicio de pensamiento interesante. Me gusta pensar en 4 factores que detienen el progreso:

  1. Calcular (el obvio: Ley de Moore, GPU, ASIC),
  2. Datos (en una forma agradable, no solo en algún lugar de Internet, por ejemplo, ImageNet),
  3. Algoritmos (investigación e ideas, por ejemplo, backprop, CNN, LSTM) y
  4. Infraestructura (software bajo usted: Linux, TCP / IP, Git, ROS, PR2, AWS, AMT, TensorFlow, etc.).

Notarás que el cálculo es solo 1 de 4. Por lo tanto, creo que si me dieras 10 veces más cálculo, nada cambiaría. Mi ciclo de iteración ciertamente mejoraría a medida que obtengo resultados de experimentos 10 veces más rápidos, por lo que tal vez podría mejorar la velocidad de 3. (desarrollando algoritmos). También podría ampliar muchos de los experimentos actuales (pero esto tampoco está claro, ya que en muchos de nuestros modelos estamos vinculados a la memoria), por lo que algunos de los modelos existentes podrían dar un resultado un poco mejor. Pero, de lo contrario, creo que nada demasiado emocionante sucedería de inmediato.

Creo que el número 4 es un factor limitante grande y lento en este momento, por lo que estoy emocionado de estar en OpenAI, donde realmente podemos poner recursos y construir una gran infraestructura específica de IA. Y en última instancia, el 3 es el más importante: incluso si tuviera todo el cómputo y todos los datos y la infraestructura de mis sueños, aún no sabría qué ejecutar para recuperar una IA que pueda pensar, hablar, aprender, descubrir, etc.

En la década de 1950, la investigación de inteligencia artificial era un tema candente. Atacaron directamente a preguntas difíciles de IA: visión por computadora, procesamiento de lenguaje natural, razonamiento geométrico y muchos más. Y pudieron implementar esos sistemas sin una potencia computacional masiva: ¡las computadoras fueron inventadas!

Ahora podríamos pensar que necesitamos grandes cantidades de potencia computacional para que los sistemas de IA funcionen. Pero es porque muchas personas en IA solo eligen técnicas que son populares, nadie inventará nada porque la gente piensa que las técnicas populares son buenas. Pero no lo son. Necesitamos ideas buenas y creativas por encima de cualquier otra cosa, nada más.

Todo se mueve más rápido, por lo que la investigación de IA se movería más rápido.

Normalmente, las personas construyen hardware para un propósito particular, luego las personas descubren cómo usarlo para otras cosas, como GPU a GP-GPU, que luego se utilizan para la IA. Sin embargo, una vez que hay un mercado para lo nuevo (AI), las personas construyen hardware especial para ello y obtendrás tu velocidad 10x (para AI).

Una vez que tenga el nuevo hardware de IA, las personas descubrirán cómo aplicarlo a otras cosas. La mejor arquitectura para redes neuronales es el procesador en memoria, y aquí se explica cómo reutilizarlo para el código normal (Linux, etc.):

Hilos errantes

El procesamiento de la red neuronal se ve computacionalmente como simulación de circuito controlado por eventos o “SPICE rápido”, pero la gente no ha construido muchas máquinas especiales para eso en el pasado. Los simuladores más rápidos ayudan a las IA a aprender más rápido y construir mejores máquinas, por lo que se vuelve más rápido.

No mucho. Necesitamos mejores arquitecturas de memoria, mejores arquitecturas de conexión y mayores densidades de componentes, como aproximadamente 3 órdenes de magnitud. O incluso mejor, la computación cuántica,

More Interesting

¿Cuáles son los principales problemas en la informática distribuida?

¿Qué tipo de proyectos privados se pueden hacer en biología computacional o bioinformática que se pueden hacer a pequeña escala?

¿Hay algún algoritmo (o aplicación) que pueda distinguir entre música, habla o galimatías al azar?

¿Hay nuevos temas en informática que me den una idea para el proyecto de graduación?

¿Cuál es la importancia de la investigación algorítmica de la teoría de juegos?

¿Qué es la privacidad diferencial?

¿Cómo debo revisar la literatura relevante sobre un tema muy específico sobre el cual no tengo mucho conocimiento?

¿Cuáles son algunas de las lecturas obligatorias (libros, trabajos de investigación, blogs) para sistemas operativos?

Como estudiante universitario sin un asesor, ¿cómo realizo una investigación en los campos de VLSI, arquitecturas informáticas y sistemas de baja potencia con el objetivo de publicar artículos en revistas / conferencias de renombre? ¿Cómo planeo publicar artículos?

¿Aprender Linux es importante para un estudiante de ciencias de la computación?

¿Cómo explicaría las pruebas probabilísticamente comprobables y el teorema de PCP a un estudiante universitario en informática?

¿Cuáles son los documentos de investigación más interesantes de Microsoft?

¿Cuáles fueron los temas candentes del aprendizaje automático en 2015?

¿Cuáles son los tipos correctos de aplicaciones móviles?

¿Por qué el uso del juego para mejorar la conciencia cultural no es un buen tema para la investigación en informática?