Argumentaré (quizás de forma controvertida, y ciertamente contra la corriente principal): no.
Mientras escribo una respuesta a esta pregunta, me acuerdo de ICML 2016 (Conferencia Internacional de Aprendizaje Automático) en el verano del año pasado. Fui uno de los que instantáneamente se dirigió al grupo de investigadores / estudiantes que escuchaban atentamente y se reunieron alrededor de David Silver después de que terminó el tutorial de “Aprendizaje de refuerzo profundo”. Y también fui el tipo que simplemente le preguntó, ¿cómo entrenaron AlphaGo (la combinación de conexiones y Monte Carlo Tree Search que sacudió el mundo de Go no hace mucho tiempo) y, lo que es más importante, cómo manejaron los muchos problemas, problemas y sensibilidades que ciertamente plagarían el entrenamiento de múltiples fases de una “bestia” con sus muchos, muchos hiperparámetros? Y simplemente, David me dijo que se dedicó mucho tiempo a ajustar y confiar en la heurística de la literatura, y gran parte de lo que se hizo en ciertos puntos fue ad hoc (por ejemplo, en realidad no se aplicó ninguna selección de modelo de principios para melodía, etc.). Me fui poco después, escuchando todo lo que necesitaba escuchar. Tuve una experiencia similar en el tutorial de Deep Residual Network ese mismo día, donde fui yo quien simplemente le preguntó al orador por qué decidieron (ya que las conexiones de omisión son una idea muy antigua) omitir específicamente cada (2 o 3) capas en su arquitectura y no intentar más o menos (o cantidades variables de omisión), y simplemente me dijeron que eso era todo lo que intentaron y que no tenía ninguna razón de principios más allá de lo empírico (la audiencia se rió, ya que esto es realmente común en la red neuronal gente en general).
Ahora, si bien esto podría haber funcionado bien para la tarea publicitada que persiguieron (es decir, Go), y es cierto que fue impresionante, el cálculo y la dificultad detrás de la hazaña es el problema. Intente aplicar el modelo / sistema a un problema diferente, a esa escala, y uno se dará cuenta rápidamente de que no “simplemente” obtiene un rendimiento instantáneo de última generación, y mucho menos inteligencia emergente (para hacernos pensar en AGI) sin enfrentando las inmensas dificultades para lograr que el sistema se generalice bien.
- Cómo (un humano) emular una inteligencia artificial perfecta y su forma de pensar en la vida diaria
- ¿La obsesión por comprender la mente / pensamiento humano y el deseo de construir inteligencia artificial / sistemas inteligentes es hedonista?
- Cómo vencer la Inteligencia Artificial si fuera una amenaza
- ¿Qué se necesitaría para que una máquina inteligente gane una conciencia humana?
- ¿Qué trabajos probablemente AI no destruirá?
El DNC, como su predecesor, la Neural Turing Machine, ha demostrado ser prometedor (aunque a menudo, muchas de estas arquitecturas con nombres elegantes se prueban en problemas de datos pequeños / de juguete). Más importante aún, el DNC es, en mi opinión, solo una instancia de una familia más grande de modelos / arquitecturas / enfoques para aumentar los modelos neuronales con memorias externas para capturar las dependencias a más largo plazo que se encuentran dentro de algunos tipos de datos (no olvidemos las Redes de Memoria , solo para empezar). Sin embargo, no voy a explicar por qué creo que el DNC podría estar equivocado cuando hablamos de AGI, eso sería el tema de una pregunta / publicación mucho más larga y bastante diferente 😉 Pero al profundizar en los detalles del documento que describe el DNC, se verá rápidamente que sus componentes básicos (como muchas redes recurrentes de memoria a largo plazo) son computacionalmente caros de entrenar y aún más caros de sintonizar con sus hiperparámetros y sensibilidades individuales (o peculiaridades / problemas).
Lo que pasa con el trabajo de DeepMind es que, en gran parte, gran parte de lo que publican se basa en el gran trabajo de muchos antes que ellos y, a menudo, es una combinación o cambio de marca de ideas antiguas (la mayoría del trabajo es así, pero tiendo para enfatizar esto con Google, ya que tiende a hacer que parezca que llegó allí primero, lo que generalmente es falso). Por supuesto, si uno es nuevo en el conexionismo o simplemente no le importa leer lo que se ha hecho durante muchas décadas, mucho de lo que verá que viene de compañías como Google se verá revolucionario. Lo que es impresionante es a menudo la escala a la que ellos, o más bien Google, pueden operar. Aquí es donde uno podría respetar el “poder” de ingeniería / hardware detrás de lo que vemos, especialmente en el trabajo que se abre paso en la corriente principal. Sin embargo, cuando se trata de la practicidad de entrenar tal modelo si existe fuera de DeepMind, abordando otros problemas con datos más desordenados y en escalas aún más difíciles, diría que el DNC está lejos, lejos de ser la “bala de plata” de AI . O, lo que es más importante, el DNC no es el modelo informático definitivo .
No deberíamos dejarnos llevar por la corriente principal de las cosas de DeepMind (u otros grupos de investigación de la industria, DeepMind es simplemente el que tiene la mayor arrogancia y, por lo tanto, mi ejemplo favorito) …
… pero, para volver al comienzo de esta respuesta, termino recordando que no hace mucho tiempo se afirmaba que AlphaGo de DeepMind había resuelto AGI (y la serie correspondiente de preguntas de Quora preguntando si también será el final) all-be-all de AGI) =]