¿Qué no pueden hacer las redes neuronales artificiales?

Las redes neuronales son principalmente canales de procesamiento de avance para mapear un vector de entrada a otro vector de salida. Eso significa que una red neuronal de avance es una función de mapeo [matemática] f () [/ matemática], dado un vector [matemático] x [/ matemático] y la salida deseada [matemática] y [/ matemática], la red neuronal necesita aprender :

[matemáticas] y = f (x) [/ matemáticas]

Pero debido al hecho de que una función exacta [matemática] f () [/ matemática] es casi imposible de encontrar en un problema práctico como la detección de rostros, las redes neuronales lo aproximarán de tal manera que:

[matemáticas] y \ aprox g (x) [/ matemáticas]

donde [math] g () [/ math] es una aproximación de [math] f () [/ math].

Por lo tanto, al ser principalmente funciones de mapeo, las redes de avance no pueden aprender la correlación temporal, como en el reconocimiento de voz. Por supuesto, este es el trabajo para las llamadas redes neuronales recurrentes, como la red neuronal de memoria a largo plazo (LSTM).

De acuerdo, también pueden manejar la correlación temporal mediante un uso inteligente de la memoria, pero ¿qué pasa con el razonamiento?

Hay mucho trabajo sobre el aumento de memoria con redes neuronales para que puedan tener una memoria de trabajo real para recordar entradas pasadas, por lo tanto, los LSTM pueden encontrar correlación temporal, pero esto no significa que también puedan razonar. Con el razonamiento necesitan recordar hechos y también deben descubrir cómo combinar esos recuerdos para resolver problemas complejos. Esta es una tarea muy difícil porque la red neuronal necesita evitar el almacenamiento de hechos irrelevantes debido al hecho de que la memoria es limitada y que esos hechos irrelevantes pueden afectar drásticamente el recuerdo preciso de los recuerdos y, por lo tanto, el razonamiento y, en última instancia, la calidad de la solución puede degradarse fácilmente.

DeepMind ha realizado algunos trabajos en las llamadas computadoras neuronales diferenciables [1] (DNC) con el propósito de tratar de mover la investigación hacia máquinas de razonamiento. Pero el razonamiento no funciona tan bien en las redes neuronales, por lo que las redes neuronales actualmente no pueden razonar y, por lo tanto, no pueden resolver problemas razonando como lo hacen los humanos.

Las redes neuronales también requieren muchos ejemplos de entrenamiento para aprender las funciones de mapeo. Uno puede volver a entrenar una red neuronal en nuevos conjuntos de datos, un proceso llamado aprendizaje de transferencia, pero esta forma de aprendizaje de transferencia no es tan poderosa como la que usan los humanos. Por lo tanto, el aprendizaje de transferencia en redes neuronales se limita actualmente a problemas diferentes pero correlacionados, un ser humano, por otro lado, puede encontrar relaciones entre experiencias totalmente diferentes, por lo tanto, un ser humano es capaz de aprender de muy pocos ejemplos un proceso llamado aprendizaje de una sola vez que actualmente es difícil para redes neuronales, por lo tanto, es seguro decir que el aprendizaje de transferencia no se resuelve en redes neuronales, aunque DeepMind trabajó un poco en el aprendizaje de una sola vez en redes neuronales [2].

Los algoritmos actuales de aprendizaje automático (ML), especialmente en aprendizaje profundo (DL), son formas supervisadas de aprendizaje. A las redes neuronales les resulta muy difícil aprender sin la señal de supervisión, por lo tanto, la mayoría de los algoritmos de ML actualmente disponibles no pueden aprovechar las enormes cantidades de conjuntos de datos sin etiquetar en Internet. Es por eso que hay una gran investigación en el aprendizaje profundo no supervisado para hacer uso de los ricos datos no etiquetados. El aprendizaje por refuerzo se usa mucho en las redes neuronales biológicas, pero no en las redes neuronales artificiales. Las redes neuronales artificiales aprenden con la ayuda de la propagación inversa de la señal de error desde la capa de salida a la entrada, ese error se origina en la capa de salida y se calcula como:

[matemáticas] e = \ hat {y} – y [/ matemáticas]

donde [math] \ hat {y} [/ math] = la salida real, [math] y [/ math] = salida deseada (señal de supervisión)

Y normalmente, la suma de los errores al cuadrado es la función de pérdida / costo para minimizar:

[matemáticas] L = e_ {1} ^ 2 + e_ {2} ^ 2 +… + e_ {n} ^ 2 [/ matemáticas]

para salidas [matemáticas] n [/ matemáticas]

Entonces, elimine [math] y [/ math] y todo el sistema se descompone, eso es lo que es la mayoría del mundo real, sin supervisión.

Finalmente, como no pueden razonar, no pueden ser creativos, el sueño profundo [3] no es creatividad, aunque es muy genial. También tiene cosas como la transferencia de estilo artístico [4], un proceso que se ha implementado en la aplicación Prisma [5], ninguno de los cuales cae en la categoría de creatividad.

Espero que esto ayude.

Notas al pie

[1] Computadoras neuronales diferenciables | Mente profunda

[2] [1605.06065] Aprendizaje de una sola vez con redes neuronales con memoria aumentada

[3] Deep Dream – Generador en línea

[4] http://www.cv-foundation.org/ope…

[5] Prisma – Aplicaciones de Android en Google Play

En teoría, nada. Con potencia informática infinita y memoria infinita, y datos suficientes, es posible crear una red neuronal que pueda calcular prácticamente cualquier cosa, siempre que pueda representarse (o incluso aproximarse) como un mapa de [math] \ mathbb {R} ^ m \ to \ mathbb {R} ^ n [/ math] para algunos [math] n, m [/ math] de manera significativa. Esto es una consecuencia del teorema de aproximación universal.

Las dificultades surgen porque:

  • Debe representar el espacio de características y el espacio de destino de una manera que la red pueda manejar y eso puede ser muy difícil
  • Tenemos poder de cómputo finito
  • Tenemos tiempo finito
  • Tenemos memoria finita
  • No siempre tenemos suficientes datos
  • Accidentalmente sobre o debajo del ajuste

Chomba Bupe señaló que no pueden razonar, pero eso no es necesariamente una limitación inherente a las redes neuronales. Si podemos encontrar una manera significativa de representar ideas como vectores numéricos, entonces es posible que una red neuronal cree razonamientos.

Es fácil enumerar cosas que aún no hemos podido lograr con las redes neuronales, pero es muy difícil descartar algo imposible.