¿Cómo puede una red neuronal ser capaz de razonamiento simbólico? ¿Cómo puede unir variables?

Estamos utilizando un algoritmo alternativo llamado Calibrated Quantum Mesh para resolver el problema.

¿Por qué estamos incursionando en esto?

Somos una startup de automatización cognitiva que resuelve problemas empresariales del mundo real que se basan en el lenguaje. Creemos que a pesar de toda la investigación en la academia, los equipos empresariales todavía están luchando porque:

  • A menudo no tienen suficientes datos homogéneos para poder entrenar redes neuronales profundas. Percepción extrasensorial. En el mundo de la automatización cognitiva, encontramos que hay más excepciones a una regla que cosas que se ajustan.
  • En la mayoría de los casos, no tienen los recursos para anotar los datos de capacitación utilizando expertos en la materia. Un cliente una vez me confió: “El costo real de los sistemas de aprendizaje profundo es el tiempo de su gente …”
  • Incluso cuando cruzan estos obstáculos, la precisión del sistema es insuficiente para un uso comercial confiable. Por ejemplo, la experiencia del MD Anderson con IBM Watson.

Emulamos los procesos cognitivos de los humanos para resolver estos problemas. Significa que entrenamos máquinas no para todo el problema, sino pasos individuales de microsegundos que los humanos toman para resolverlo (Cómo hacer que una IA piense como un humano).

A medida que atendemos a más y más clientes, hemos comenzado a darnos cuenta de que el idioma no es solo texto escrito o hablado. Las imágenes también son una gran parte del lenguaje. Pensar en:

  • ¿Cómo afecta el tamaño de fuente a su comprensión de la importancia de un concepto?
  • ¿Cómo las etiquetas al lado de las imágenes contribuyen a su comprensión?
  • ¿Cómo empezar a juntar significados de diferentes textos porque aparecen juntos en una imagen?

Creemos que estos aportes serán muy valiosos para nosotros para resolver problemas de lenguaje natural.

Nuestro enfoque

Nuestro algoritmo central se llama Malla Cognitiva Calibrada. Sus principios básicos son los siguientes:

  • Un símbolo, palabra, texto o cualquier variable en el contexto humano puede tener múltiples significados, algunos más probables que otros.
  • Todo está correlacionado entre sí y limita los posibles significados que cada par podría tener. Por ejemplo, en la frase “El informe”, “El” asegura que “informe” es más probable que sea un sustantivo que un verbo.
  • Además de las restricciones de relación, se puede agregar secuencialmente otra información disponible para resolver la malla con un solo significado. Por ejemplo, “El informe de un arma”, prácticamente garantiza que “informe” es una onomatopeya en este caso.

Hemos encontrado que este enfoque es muy poderoso en caso de problemas de IA relacionados con el lenguaje natural. CIOReview: ¿Por qué NLS supera a Google Search Appliance?

No hay razón para que esto no funcione para imágenes o símbolos. El primer desafío que tenemos que resolver es que no tenemos nada parecido a la gramática como lo hacemos con el lenguaje natural. Solo tenemos que ser oportunistas al respecto.

Éxito hasta ahora

Solo estamos comenzando, pero esperamos anunciar algunas cosas a principios de 2018. Desafortunadamente, como una startup con problemas de arranque, no tenemos presupuestos significativos de I + D, pero estamos abiertos a colaborar con equipos que sí.

El sueño

Nuestra misión es crear una máquina que pueda ingerir todo el conocimiento de la humanidad ya disponible en forma de Internet (Primeros pasos para un cerebro de máquina). Dicha máquina podrá resolver una variedad de problemas sin ningún tipo de entrenamiento, y no solo tendrá la escalabilidad de una computadora, sino también el juicio de la experiencia colectiva de los humanos.

Cada vez más, nos damos cuenta de que el texto escrito es solo una parte de las capacidades que esta máquina necesita para desarrollar.

El problema con las redes neuronales (NN) es que requieren una activación diferenciable y funciones objetivas y en su mayoría son de avance. Utilizan pesos para modelar el problema y no necesariamente aprenden hechos, sino que simplemente aprenden una función de mapeo.

Aprender solo el mapeo es malo para el razonamiento simbólico o cualquier forma de razonamiento. Porque el razonamiento requiere recurrencia, memoria y atención.

Sí, las personas pueden abrir redes neuronales recurrentes (RNN) que en teoría están completas. Es decir, un RNN puede implementar cualquier función computacional.

¿Pero puede aprender alguna función computacional?

El problema con la mayoría de las pruebas teóricas que tenemos es que generalmente tocan el lado más fácil del problema. La capacidad de aprendizaje algorítmico también es muy importante, al igual que la capacidad de aproximar cualquier función.

El problema que tenemos es que nuestros algoritmos de aprendizaje son limitados, por lo tanto, nuestros NN no son actualmente capaces de aprender fácilmente problemas no diferenciables.

¿Dónde entra el razonamiento simbólico?

El razonamiento no es diferenciable porque para razonar el modelo de aprendizaje automático (ML) tiene que construir un modelo de datos, no mediante un ajuste de peso suave, sino mediante el descubrimiento de hechos “difíciles”. Por ejemplo, un niño aprendería muchos hechos sobre el mundo, como si salta, se cae de nuevo. Y es posible que ella razone basándose en esos hechos para anticiparse a las cosas en el medio ambiente.

Los NN aumentados a bloques de memoria se acercan, pero existen algunas limitaciones en el sentido de que el acceso a la memoria todavía se realiza de manera suave utilizando un mecanismo de atención softmax. El acceso suave a los bloques de memoria hace que sea difícil escalar estos sistemas y aún es difícil para estos modelos aprender hechos concretos de los datos. Por ejemplo, dados los ejemplos de multiplicación, es difícil para estos modelos aprender el algoritmo básico de multiplicación.

Quizás la memoria NN aumentada interesante es la computadora neural diferenciable (DNC). Como su nombre indica, la diferenciabilidad se enfatiza mucho, esto limita el DNC porque el descubrimiento de hechos necesario para el razonamiento simbólico en realidad no es diferenciable.

Entonces, el camino a seguir es encontrar mejores algoritmos de aprendizaje; de ​​lo contrario, se supone que la arquitectura RNN puede implementar cualquier función computacional.

Necesitamos algoritmos de aprendizaje que no se basen en objetivos diferenciables y quizás también necesitemos mejores arquitecturas.

Aunque es más probable que los algoritmos de aprendizaje por refuerzo (RL) funcionen mejor cuando se trata de razonamiento simbólico y, al igual que RL ha tenido un poco de éxito en los sistemas de control robótico, puede ayudar a entrenar NN para el razonamiento simbólico.

De hecho, las NN aumentadas de memoria que utilizan un mecanismo de atención dura para acceder a los bloques de memoria pueden entrenarse con RL. No estoy seguro de si RNN + memoria + RL realmente puede aprender el razonamiento simbólico, pero apuesto a que podría ser la mejor forma actual de lograr el razonamiento simbólico.

Espero que esto ayude.

¿Cómo, de hecho?

Ese es el famoso problema de Binding, que aún no se ha resuelto completa o satisfactoriamente.

Tal vez, como muchos de nosotros hemos estado diciendo durante bastante tiempo, las redes neuronales no son la “cosa” completa, incluso si son la cosa en estos días y han tenido mucho éxito durante al menos 2 décadas: muchos piensan que necesitamos algo más , más allá de las ANN, profundas o no, para manejar el razonamiento simbólico. Sin embargo, sobre lo que podría ser, no estamos de acuerdo, principalmente porque no hay suficiente investigación sobre ese tema debido a que casi todos (principalmente estudiantes, nuestra “fuerza laboral de investigación”) están ocupados en llegar tarde a ser más “brutales”, más profundos y supuestamente mejores. forzar “(también conocido como” profundo “) redes para ganar un porcentaje más o menos en algún punto de referencia.

Han existido durante mucho tiempo campos de “astilla” en la investigación de inteligencia artificial (consulte el artículo vinculado para obtener una descripción general a vista de pájaro). Dos de los más conocidos se denominan inteligencia subsimbólica e inteligencia simbólica; la última es la forma inicial de investigación de IA en los años 50 y 70, y la primera está representada actualmente por las diversas redes neuronales artificiales.

Los enfoques subsimbólicos parecen ser fundamentalmente incapaces de manejar el razonamiento simbólico, aunque todavía hay una serie de grupos de investigación que intentan alcanzar ese objetivo. Sin embargo, algunos grupos están investigando sobre el aprendizaje simbólico y el razonamiento, utilizando, por ejemplo, varias formas de aprendizaje por refuerzo como base, en lugar de los ANN (profundos). Otros están trabajando en el “desarrollo y extracción de reglas” a partir de ANN capacitadas, a fin de capitalizar el gran éxito de tales modelos: ver por ejemplo

https://scholar.google.com/schol

y en particular

http://papers.nips.cc/paper/520-…


Quizás terminemos usando un enfoque híbrido con múltiples módulos y metodologías para que el conjunto aproveche las capacidades de cada submódulo y también ayude a compensar sus limitaciones individuales. Una verdadera Sociedad de la Mente como se propuso hace unos 30 años.

Bueno, las personas son increíblemente malas en el razonamiento simbólico: permítales dedicar 10 ^ 13 neuronas a mantener 7 +/- 2 conceptos en su cabeza, agregar una década de escolarización y algunos de ellos podrían razonar sobre la ley o pensar sobre la física de los ascensores que caen.

Entonces, tal vez cada concepto sea solo un vector de 10,000 activaciones (color, tamaño, bondad, gobernabilidad, oportunidad de tener sexo con esto, miedo, es en Asia, es una gran ciudad, tiene rojo) cabello, etc.) Y la red neuronal puede arrojar 7 de estas cosas en una matriz de 10000 × 7 e intentar aprender mapeos.

El enlace es solo el gran vector de activación, el razonamiento simbólico es solo el mapeo aprendido entre las pocas cosas en la memoria a corto plazo. Inventar una nueva idea es tener la suerte de mantener algunos conceptos relevantes en esos 7 espacios hasta que aprenda una correlación.

Bastante deprimente si ese es el modelo, pero podría acercarse a la realidad.

More Interesting

¿La gran tecnología dominará los datos y el aprendizaje automático?

Cómo probar un conjunto de datos no se puede clasificar

¿Hay una buena lista de ejemplos de cómo los problemas genéricos se convierten a MapReduce?

Estamos viendo el comienzo de las máquinas que pueden codificar. ¿Aprender un lenguaje de programación aún sería útil en la carrera de ML?

¿Por qué confiamos en la aleatoriedad de la búsqueda aleatoria en la optimización de hiperparámetros?

¿Cuáles son algunas formas de preprocesar imágenes antes de aplicar redes neuronales convolucionales para la tarea de clasificación de imágenes?

¿Las computadoras son ahora jugadores de póker más fuertes que los humanos?

¿Es posible o valioso obtener otro doctorado en Machine Learning (Deep Learning) de una de las 50 mejores universidades de los Estados Unidos?

¿Cuál es su opinión sobre el lenguaje de programación Julia?

¿Qué tema es adecuado para un taller de aprendizaje automático para estudiantes de secundaria típicos?

¿Cómo se implementa una red neuronal convolucional (CNN) con la estructura de un árbol binario en TensorFlow?

Cómo calcular la cantidad óptima de datos de entrenamiento para un pronóstico de series de tiempo usando Python

¿Puedo usar una CPU para generar datos (aumento) cuando el entrenamiento de flujo de tensor en GPU es de forma paralela?

¿Qué es la inteligencia artificial? ¿Cuáles son los sujetos si queremos estudiar inteligencia artificial?

¿Puedo usar el aprendizaje automático para pronosticar datos de series temporales para puntos de datos discretos dispersos?