¿Cuál es el siguiente paso más allá del aprendizaje profundo en IA?

Pidió responder …

Mi comprensión es demasiado superficial para especular sobre lo que está más allá del aprendizaje profundo, aparte de citar un artículo publicado en Science ayer (11 de diciembre de 2015) que tal vez da una idea de lo que puede venir después del aprendizaje profundo. El artículo describe un modelo computacional con capacidad para producir una variación de un personaje en un sistema de escritura desconocido, en el primer intento, que no se puede distinguir del de los humanos. Específicamente, el documento presenta un marco de aprendizaje del programa bayesiano capaz de

  • Aprender con pocas muestras de datos, a diferencia de los modelos actuales de aprendizaje profundo que requieren grandes conjuntos de datos de capacitación.
  • Capacidades de generalización creativa que en muchos casos son indistinguibles de los humanos.

Figura del aprendizaje de conceptos a nivel humano a través de la inducción del programa probabilístico, 11 de diciembre de 2015, Ciencia

Tres principios básicos analizados en el documento son

  1. Composicionalidad, que es la idea de que las representaciones se construyen a partir de primitivas más simples.
  2. Causalidad, que es que el modelo representa la estructura causal abstracta de cómo se generan los caracteres.
  3. Aprendiendo a aprender, esta idea de que el conocimiento de conceptos anteriores puede ayudar a apoyar el aprendizaje de nuevos conceptos.

Dado que estos principios son relativamente generales, afirman los autores, no solo pueden aplicarse a los personajes, sino a muchos otros tipos de conceptos ( aunque esto aún está por verse ).

En el enfoque descrito en este documento, los conceptos se representan como programas probabilísticos simples, es decir, modelos generativos probabilísticos expresados ​​como procedimientos estructurados en un lenguaje de descripción abstracta. [4], [3], [5]

Figura del aprendizaje de conceptos a nivel humano a través de la inducción del programa probabilístico, 11 de diciembre de 2015, Ciencia

Figura del aprendizaje de conceptos a nivel humano a través de la inducción del programa probabilístico, 11 de diciembre de 2015, Ciencia

Referencias

  1. El sistema informático pasa la “prueba de Turing visual”, MIT News, 10 de diciembre de 2015
  2. Aprendizaje de conceptos a nivel humano a través de la inducción del programa probabilístico, 11 de diciembre de 2015, Ciencia
  3. Aprendizaje automático probabilístico e inteligencia artificial, mayo de 2015, Naturaleza
  4. La mente conceptual: nuevas direcciones en el estudio de conceptos: Eric Margolis, Stephen Laurence: 9780262028639: Amazon.com: Libros
  5. Modelos probabilísticos de cognición

TLDR; Aprendiendo a razonar con datos.

El aprendizaje profundo, al menos en su forma actual, se trata de aprender funciones complicadas de la entrada (imagen / oración). El siguiente paso es aprender un algoritmo en lugar de una función para realizar el mapeo.

¿Cuál es la diferencia, preguntas? Un algoritmo también puede realizar cálculos iterativos o recursivos, mientras que cualquier función complicada solo puede realizar el equivalente de las declaraciones de ramificación (if-else, switch) y operaciones aritméticas / lógicas. Muchos investigadores piensan que este es el próximo gran paso en la IA, algo que posiblemente permita a las máquinas realizar razonamientos.

Como ejemplo, considere el siguiente conjunto de oraciones.

Este ejemplo es del documento [1410.3916] Redes de memoria. Debería ser obvio que cualquier función complicada no puede responder preguntas como estas en general.

En teoría, las redes neuronales recurrentes (RNN) pueden aproximar cualquier algoritmo de la misma manera que las redes neuronales Feedforward pueden aproximar cualquier función. Sin embargo, en la práctica, no parecen recordar cosas durante mucho tiempo.

Trabajos recientes como Neural Turing Machines y Memory Networks son pasos en la dirección correcta. Son modelos recurrentes con memoria potencialmente ilimitada, algo que les puede dar la capacidad de recordar muchas cosas. Esta es un área de investigación candente en este momento, y sospecho que algo grande saldrá de esto en los próximos 5-6 años al menos. ¡Estos son tiempos emocionantes para la IA!

A2A.

Hay varias buenas respuestas aquí. Ajit Rajasekharan tenía razón al presentar el reciente artículo en Science. BLP requiere mucha menos información que las redes neuronales artificiales profundas, y eso es importante, porque los ANN se están acercando al 100% de precisión en algunos conjuntos de problemas estrechos. Entonces, la única forma de avanzar sería encontrar una solución más eficiente. Parece que BLP hace eso para las imágenes, así que ahora tendremos que ver si se generaliza bien a otros tipos de datos.

Suraj Srinivas tenía razón al plantear el razonamiento. Geoff Hinton ha hablado repetidamente sobre algo que él llama “vectores de pensamiento”, o una representación distribuida de una idea que podría hacer que un bot de chat responda con otra idea. Este es un enfoque que las personas están adoptando al crear agentes de conversación. Es solo que las posibilidades y recombinaciones de la conversación son tan grandes que necesitamos mucha más potencia de procesamiento.

Finalmente, mientras avanzamos rápidamente para resolver problemas estrechos, una solución más general necesitará saber * qué * algoritmo elegir para manejar la complejidad y el ruido que el mundo le arroja.

Chomba Bupe tiene razón al decir que debemos mirar la historia de la IA. Los avances en IA que vemos hoy son el resultado de la adaptación de algoritmos antiguos a hardware mucho más potente. Indudablemente, hay otras ideas que esperan ser realizadas con la próxima generación de chips.

Por supuesto, nadie conoce el futuro, pero podemos decir lo que tiene que hacer la “próxima gran cosa”. Pero no podemos decir cómo funcionará.

Creo que el aprendizaje profundo funciona porque tiene más capas de abstracción que una red más superficial. Sin magia es así de simple. Pero no puedes seguir acumulando capas ocultas. Por muchas razones prácticas y teóricas.

La próxima gran cosa permitirá muchas más capas pero utilizando otros métodos. Supongo que construiremos sistemas de redes profundas. Al igual que una red está compuesta por muchos “perceptrones” organizados, es una forma semi-regular, el sistema más grande utilizará redes multileglas organizadas en formas bastante complejas y no regulares.

Creo que así es como funciona el salvado. Hay secciones que tienen diferentes tipos de matrices de celdas en su mayoría regulares, pero las secciones están organizadas en una forma compleja.

El siguiente paso será más DURO porque no se logra simplemente agregando toneladas de hardware realmente rápido. Tendremos que descubrir cómo una red proporciona retroalimentación y “capacitación” a otra en algún tipo de sistema cíclico de auto-referencia. La “Teoría de la mente” volverá a ser un tema de investigación serio.

Pero mientras tanto, el tiempo puede construir clasificadores de patrones realmente buenos y hacer sugerencias aún mejores sobre quién debe comprar los compradores y mejores predicciones del mercado de valores, etc. Una buena lectura para la “próxima gran cosa” es la “Sociedad de la Mente” de Minsk. Minsky no tenía idea de cómo implementar sus ideas, pero su idea de “sociedad” es buena. El cerebro NO es solo una gran red, son cientos en subpartes independientes que trabajan juntas y en algún momento compiten.

Para discutir sobre la próxima “gran cosa” para reemplazar el aprendizaje profundo, podría ser necesario analizar qué es la IA y cuánto ha alcanzado el aprendizaje profundo y sus deficiencias.

La IA tiene como objetivo construir inteligencia en las máquinas para que otros agentes inteligentes, es decir, los humanos puedan percibirlos como inteligentes. Los humanos debemos juzgar y concluir que dicho sistema es verdaderamente inteligente por cualquier medida de inteligencia.

Normalmente juzgamos la inteligencia como la capacidad de aprender de ejemplos o experiencias con una supervisión mínima, generalmente por interacciones con el entorno u otros agentes inteligentes.

Al igual que un niño, aprendería un nuevo idioma con una supervisión mínima junto con otras tareas complejas, como navegar por el entorno. La capacidad de aprender con éxito una nueva tarea y generalizarla a otras tareas no relacionadas es un muy buen indicador de inteligencia.

El aprendizaje profundo es en sí mismo una idea revolucionaria desde sus humildes comienzos en los años 80 hasta convertirse en un algoritmo de aprendizaje de vanguardia en la actualidad, ha experimentado muchos cambios y ha logrado mucho.

El aprendizaje profundo ha realizado muchos algoritmos tradicionales en áreas como la clasificación de imágenes, la comprensión del lenguaje natural, el reconocimiento de voz y muchos más.

El aprendizaje profundo muestra cierta inteligencia en el sentido de que puede generalizarse notablemente muy bien, pero solo cuando las tareas están relacionadas. Es difícil para el sistema transferir su representación aprendida a otras tareas no relacionadas.

Una cosa en la que el aprendizaje profundo es muy bueno es el mapeo. El aprendizaje profundo literalmente solo aprende a mapear un vector de alta dimensión a otro vector de salida con cierta tolerancia a ciertas transformaciones. Pero no hace lo siguiente muy bien.

  • Aprendizaje de una sola vez: el aprendizaje profundo claramente no es un aprendizaje de una sola vez. El aprendizaje profundo requiere una gran cantidad de datos de entrenamiento debido a la gran cantidad de parámetros necesarios para ser ajustados. El aprendizaje de una sola vez es verdadera inteligencia como se observa en la capacidad de los humanos para aprender de algunos ejemplos.
  • Extrayendo significado: por ejemplo, la capa de salida solo da una puntuación que muestra qué clases están presentes y nada más. No extrae significado geométrico o significado de uso. Quizás un mejor ejemplo esté en la gramática, si le pregunto a un robot que habla “¿puedes traerme algo de lo que pueda beber?” o “¿puedes traerme una taza?” ¿Cómo puede responder? Las dos declaraciones tienen el mismo significado. Este ejemplo podría no ser un mejor ejemplo, pero está claro que hay muchas maneras de decir lo mismo que es evidente en las conversaciones de persona a persona. El significado es difícil de definir, pero implica encontrar relaciones entre eventos o tareas no relacionadas, como un gráfico de conocimiento.
  • Aprendizaje no supervisado: la mayoría de las arquitecturas de aprendizaje profundo, como las redes neuronales convolucionales, son modelos de aprendizaje supervisado. Gran parte de la verdadera IA se basa en modelos de aprendizaje no supervisados. Aprender con una supervisión mínima es una buena señal de inteligencia, ya que la mayoría de los humanos pueden aprender cosas complejas sin supervisión.
  • Flexibilidad: el aprendizaje profundo es engorroso y requiere máquinas de alta gama para aprender modelos grandes. Una vez que el sistema aprende, se vuelve rígido y su funcionalidad se limita solo a las tareas que aprendió. Usted nota que una mosca de la fruta o una hormiga tiene solo unas 250K neuronas, pero su cerebro exhibe una multitud de funcionalidades en comparación con las redes neuronales profundas de última generación a gran escala actuales.

Por lo tanto, mi argumento aquí es que cualquier cosa que tenga que reemplazar el aprendizaje profundo obviamente debe funcionar bien en los puntos mencionados anteriormente y además de los siguientes puntos:

  • Eficiencia computacional: creo que la arquitectura neural profunda se implementa de manera demasiado ingenua. Las neuronas en los cerebros biológicos claramente no siempre están activas. Debe haber una forma de acelerar los cálculos utilizando la dispersión en la naturaleza de los patrones de activación neural, no solo mediante el uso de GPU. Por lo tanto, la propagación de la señal a través de la red se dirigiría a las regiones correctas de la red, algo así como dividir y conquistar, lo que acelera aún más las cosas.
  • Aprendiz de una sola vez: por lo general, un sistema de este tipo puede realizarse mediante la extracción de representaciones atómicas o componentes significativos en las señales de entrenamiento para que cuando se encuentre una nueva señal, el sistema adivine correctamente. A diferencia del aprendizaje profundo, los componentes aprendidos pueden aprenderse en una sola capa y pueden ser más significativos.
  • Aprendizaje incremental: el aprendizaje nunca se detiene en los humanos, siempre estamos aprendiendo a un nivel consciente y subconsciente. Un verdadero sistema de inteligencia artificial debe tener la capacidad de aprender continuamente. Esto es importante en casos como las aplicaciones robóticas.
  • Transferencia de conocimiento: aprender una tarea mejora una tarea no relacionada previamente aprendida. Este es un concepto de transferencia de conocimiento y puede dar como resultado procesos de generación de ideas novedosos y totalmente nuevos, como en el arte y la música, mediante los cuales las máquinas producirían lo que la gente llamamos “obras de arte”. La capacidad de transferir conocimiento es realmente necesaria para el aprendizaje de una sola vez. Este es un concepto muy importante en el aprendizaje automático pero difícil de realizar en la realidad.

Hay mucho que hacer en la IA para lograr realmente la inteligencia en las máquinas. El aprendizaje profundo puede ser el estado actual de la técnica, pero no significa que haya llegado para quedarse.

Además de lo que ya se ha dicho, hay muchos problemas con el aprendizaje profundo que lo hacen incapaz en algunas configuraciones.

Los algoritmos futuros probablemente intentarán imitar más la forma en que los humanos resuelven problemas en lugar de tratar de emular las neuronas cerebrales.

Al igual que los aviones no agitan las alas, a veces imitar sistemas biológicos exactos puede no ser el mejor enfoque para construir un sistema de IA real. Puede haber otras motivaciones en cuanto a por qué las neuronas biológicas están estructuradas de la manera en que no son solo por razones computacionales.

Espero que esto ayude.

Integración de técnicas de IA en una arquitectura cognitiva viable. Esta investigación ya ha comenzado, simplemente no es tan sexy como vencer a los humanos en los videojuegos. La gente de aprendizaje profundo sabe que tienen selección y clasificación de acciones e incluso agrupamiento conceptual, pero aún no tienen razonamiento y muchas otras características de inteligencia.

Hay muchas cosas en el aprendizaje profundo en sí, como el aprendizaje de extremo a extremo y redes mucho más complejas, como las redes de autopistas, las redes de enlace y mucho más, pero, en general, el aprendizaje profundo (redes neuronales) será reemplazado por el modelado cognitivo en que la ciencia neuronal es una de las partes entre psicología, filosofía, antropología, lingüística y IA general.