¿Es probable que se hayan descubierto redes neuronales artificiales sin el ángulo neurológico / tratando de modelar el cerebro? Muchos dicen que son glorificados álgebra lineal.

Muy improbable : principalmente en un área compleja como la inteligencia artificial (IA) o el aprendizaje automático (ML) partimos de evidencia empírica y avanzamos hacia pruebas teóricas, sucede como:

  1. Un investigador se inspira en alguna fuente extraña.
  2. Obtiene un momento aha e implementa el algoritmo X.
  3. El algoritmo X está empíricamente demostrado que funciona muy bien, de modo que otros investigadores se unen.
  4. Más investigadores comienzan a preguntar, ¿por qué? ¿Y cómo? Comienzan a presentar pruebas teóricas y razones sobre cómo y por qué X funciona mejor.

Por supuesto, el algoritmo X puede desarrollarse desde una perspectiva puramente teórica, pero es difícil y casi imposible sin inspiración. Los investigadores normalmente necesitan inspiración y esa inspiración normalmente proviene de “¿por qué y cómo funciona X tan bien?” . El cerebro contiene algoritmos de aprendizaje excepcionales, por lo que es natural tener un punto de entrada de investigación a partir de ahí. Es muy probable que imitar los algoritmos o neuronas del cerebro sea un esfuerzo de investigación fructífero porque el cerebro ha demostrado que funciona. Por lo tanto, al tratar de imitar o emular la arquitectura del cerebro, podríamos encontrar soluciones a la inteligencia. Es muy poco probable que la inteligencia se resuelva con inspiraciones de otros lugares, el cerebro humano guarda muchos secretos para la inteligencia artificial general (AGI).

Es por eso que grupos de investigación de primer nivel como DeepMind buscan inspiración en la naturaleza. El aprendizaje por refuerzo (RL), que se utilizó en el sistema AlphaGo, está inspirado en agentes biológicos en entornos del mundo real. A los matemáticos o investigadores les habría llevado mucho tiempo descubrir otros impresionantes algoritmos de ML como las redes neuronales convolucionales de vanguardia (convNet) sin la inspiración de la corteza visual primaria.

Por lo tanto, la evidencia empírica es un buen punto de entrada para encontrar con éxito otros algoritmos impresionantes. La búsqueda de comprender nuestro algoritmo hipotético X conduciría al descubrimiento de pruebas matemáticas que resultarían en el desarrollo de más algoritmos. Con el tiempo, otros modelos de trabajo que no se parecen en nada a las redes neuronales del cerebro pueden comenzar a aparecer. Los modelos ML como las redes neuronales recurrentes (RNN), como las redes de memoria a largo plazo (LSTM) o de unidad recurrente cerrada (GRU) tienen muy poca semejanza con las neuronas cerebrales, pero aún se ramifican indirectamente desde la misma raíz.

Más abajo en los caminos de investigación, los algoritmos evolucionan para parecerse cada vez menos a lo que los inspiró en primer lugar. Como puede ver, las redes neuronales artificiales (ANN) comenzaron con los perceptrones con funciones escalonadas pesadas pero eran muy difíciles de entrenar debido a la naturaleza discontinua de las funciones escalonadas.

Algunos investigadores se dieron por vencidos y siguieron buscando direcciones de investigación más prometedoras en ese momento. Mientras que otros investigadores cuestionaron, con la inspiración de la neurociencia, ¿cómo entrenamos a estos ANN? Luego, se volvió a descubrir el algoritmo de backprop y se eliminó la función de paso en favor de las funciones de activación diferenciables continuas. Así, tales funciones de activación continua no lineal se adoptaron en aras de la optimización del gradiente (aprendizaje). Desde entonces, la diferenciabilidad y la no linealidad se han convertido en propiedades muy importantes de las funciones de activación en algoritmos ML.

Presentados con esa evidencia empírica, los investigadores comenzaron a encontrar pruebas como el teorema de aproximación universal para tratar de explicar el por qué / cómo parte. Incluso hoy, los algoritmos de aprendizaje profundo (DL) no tienen formulaciones matemáticas y teóricas adecuadas. Todavía confiamos en observaciones empíricas al adoptar qué algoritmos de ML usar.

Finalmente, ML se ha convertido en otra teoría glorificada de optimización avanzada que requiere funciones objetivas diferenciables. El objetivo aún no se ha alcanzado, muchos problemas interesantes en inteligencia artificial no son diferenciables.

Tenemos mucho que aprender de los cerebros de los mamíferos y de los insectos. Pero no es necesario emular las neuronas cerebrales reales, pero tal vez solo necesitemos imitar los algoritmos que se ejecutan en esos cerebros para resolver la inteligencia.

Espero que esto ayude.

Si está hablando de redes neuronales artificiales ‘estándar’ (ANN) que usan funciones de activación continua como sigmoides o funciones de base radial, entonces sí, creo que se habrían descubierto. Sin embargo, no creo que sean tan ampliamente adoptados como lo son ahora, por ejemplo, el aprendizaje profundo, o al menos hubieran tardado mucho más en convertirse en la corriente principal.

PERO la enorme suposición hecha por los ANN que usan neuronas con funciones de activación continua es la siguiente: las neuronas codifican información usando sus tasas de disparo. Ahora se sabe que esta suposición es falsa. Ahora se sabe que las neuronas reales usan el momento exacto de los ‘picos’ (potenciales de acción) individuales de cada neurona individual para codificar la información (así como, o totalmente en lugar de, las tasas de disparo; estos detalles aún se debaten acaloradamente).

Así que esto nos lleva a las redes neuronales (SNN). Se ha demostrado matemáticamente que son mucho más potentes para codificar y procesar información que los ANN estándar. El problema es que este es un resultado teórico y no sabemos mucho sobre cómo utilizar este poder en la práctica, ya que los SNN son muy complejos. Los SNN están inspirados casi por completo en el cerebro y dudo que los hubiéramos descubierto de otra manera. La investigación de SNN todavía está en su infancia, pero tengo el fuerte presentimiento de que para una verdadera inteligencia artificial general los vamos a necesitar.

Las redes feedforward estándar surgen matemáticamente de manera muy natural. Creo que finalmente se habrían descubierto sobre la base de las siguientes consideraciones, pero probablemente hubieran tardado bastante más.

Los modelos lineales como la regresión lineal y la regresión logística se entienden bien sin la necesidad de ninguna analogía biológica. Podemos extender un modelo lineal a un modelo no lineal aplicando un modelo lineal a una representación transformada [math] \ phi (\ mathbf {x}) [/ math] de los datos de entrada. El llamado truco del kernel (utilizado en SVM) es un método para hacerlo. La representación se fija con anticipación y a menudo se oculta en la función del núcleo.

Otra opción es intentar aprender [math] \ mathbf {\ phi} [/ math] como parte del modelo. Entonces, comenzamos con un modelo lineal estándar [math] y = f (\ mathbf {x}; \ mathbf {w}) = \ mathbf {w} ^ T \ mathbf {x} [/ math], para un vector de pesos [ math] \ mathbf {w} [/ math], y lo aumentamos para obtener un modelo más complejo [math] y = f (\ mathbf {x}; \ mathbf {\ theta}, \ mathbf {w}) = \ phi (\ mathbf {x}; \ mathbf {\ theta}) ^ T \ mathbf {w} [/ math]. Ahora tenemos dos conjuntos de parámetros para aprender, y los parámetros [math] \ mathbf {\ theta} [/ math] nos permiten aprender la representación [math] \ phi [/ math].

Con un conjunto restringido apropiado de funciones de hipótesis [math] \ mathbf {\ phi} [/ math] disponibles para que el algoritmo de aprendizaje pueda elegir, esta es simplemente una red de avance con una capa oculta. Es muy común elegir [math] \ mathbf {\ phi} [/ math] entre la clase de funciones no lineales [math] \ max (0, W ^ T \ mathbf {x} + \ mathbf {b}) [/ math], para una matriz de parámetros [math] W [/ math] y un vector [math] \ mathbf {b} [/ math]. (Tenga en cuenta que esto es un poco un abuso de notación, ya que se aplica por elementos). Estas funciones se denominan “unidades lineales rectificadas” en el lenguaje de redes neuronales estándar. En otras palabras, esta es una red de alimentación directa con una función de activación ReLU y pesos y sesgos estándar, pero la construimos sin ninguna referencia biológica.

Anidar esto conduce a redes profundas con múltiples capas.

Si, ciertamente. El problema de hacer un interpolador de función universal conduce a la arquitectura de una red neuronal. La biología inspiró el algoritmo de propagación hacia atrás (aunque no ocurre en el cerebro, es solo una analogía con el refuerzo de entrenamiento conocido en psicología) y la función de disparo sigmoide. Para un mejor rendimiento, dejamos atrás ambas inspiraciones, por ejemplo, utilizando funciones de base radial que tienen buenas propiedades de desacoplamiento y descenso de gradiente estocástico para el entrenamiento, nada como el cerebro. De las neuronas, solo el bombo sigue ahí.

Si. Puede ver las NN como el tercer paso en la exploración de problemas de clasificación / regresión:

  1. El primer paso fue usar un modelo lineal simple.
  2. El segundo paso fue darse cuenta de que aún puede usar un modelo lineal para realizar una regresión no lineal simplemente usando un conjunto de funciones básicas.
  3. El tercer paso natural fue aprender las funciones básicas, haciéndolas paramétricas.

Honestamente, las redes neuronales son “neuronales” y “redes” tanto como cualquier otra función compuesta no lineal.
EDITAR: … y la propagación hacia atrás, así como la idea general de usar modelos diferenciables, tiene poco que ver con la neurociencia.

Estamos creando las redes neuronales artificiales. Las redes neuronales artificiales no están creando nuestro cerebro. Entonces “descubrir”? o “inventar”? Ponlo de esta manera. Una vez que la red neuronal artificial está suficientemente avanzada, y puede razonar y hablar, puede argumentar que la respuesta es “no”. Eso sería irónico, arrogante y equivocado.