¿Qué tan ‘neurales’ son las redes neuronales?

Los modelos de “red neuronal” no son muy neuronales en absoluto.

Las llamadas “redes neuronales” son un tipo de algoritmo estadístico de aprendizaje automático. Nadie pensó que las neuronas reales funcionaran de esa manera, aunque las redes neuronales están inspiradas en la estrategia general de procesamiento de información del cerebro.

A fines de la década de 1950, se propuso el algoritmo informático “perceptrón”. A principios de la década de 1980, esto se había convertido en los llamados “modelos conexionistas” utilizando el algoritmo de retropropagación. McClelland y Rummelhart, quienes editaron el famoso libro Parallel Distributed Processing , fueron muy cuidadosos para evitar referencias a las neuronas. Describieron sus modelos como redes de “unidades” con “conexiones” y sugirieron que esto estaba inspirado de manera muy flexible por cómo podría funcionar el cerebro. Evitaron el término “neurona” o “sinapsis”.

No pasó mucho tiempo antes de que el modelo conexionista de propagación hacia atrás comenzara a llamarse modelo de “red neuronal”.

Los neurocientíficos siempre se han encogido ante este nombre porque crea confusión. Las neuronas reales aumentan, no generan “valores graduados”. Además, el “aprendizaje” en las neuronas reales se produce mediante picos coincidentes, no por propagación de errores hacia atrás. Pero el nombre de “red neuronal” era tan pegadizo que nada podía detenerlo.

En estos días, cuando los neurocientíficos quieren referirse a las redes de neuronas en el cerebro, las llamarán “redes neuronales” o “circuitos” solo para evitar el término ahora confuso de forma permanente “red neuronal”.

Relacionado
¿Qué sabemos sobre las redes neuronales reales que aún no se han aplicado en Machine Learning?

Cómo identificar entidades en una consulta de búsqueda en lenguaje natural

¿Cuáles son algunas falacias o errores comunes cometidos por los principiantes en estadística, aprendizaje automático y análisis de datos?

¿Qué piensa la gente del concurso Quora ML CodeSprint 2013?

¿Qué significa extraer características de alguna capa de una red neuronal convolucional?

¿Por qué los sitios web comienzan con www?

¿Cuál es la mejor manera de administrar indicadores de función o alternar características para equipos de desarrollo más grandes?

No muy. La mayoría de las redes neuronales son estáticas, lo que significa que la arquitectura (incluidas las conexiones recurrentes) no cambia a tiempo. Además, las redes neuronales reales, como estoy seguro de que sabe, son redes neuronales con picos, y las reglas de aprendizaje exploradas en la neurociencia computacional, como la plasticidad dependiente del tiempo de pico, siguen siendo grandes simplificaciones. Demonios, todavía no sabemos cómo funciona el aprendizaje biológicamente, ¡y recuerda que todo está sin supervisión!

Esta es probablemente la respuesta más simple que obtendrá. Un neurocientífico computacional real probablemente haría todo lo posible para mostrar lo mucho más complicados que son los sistemas neuronales reales.

Paul King

More Interesting

Cómo construir un proyecto de aprendizaje profundo en dos meses

Cómo aplicar una técnica de validación cruzada en un modelo LSTM

¿Alguien ha intentado sitios web de IA que se diseñen ellos mismos? ¿Cuál es la diferencia entre los sitios web creados por humanos y por IA?

¿Por qué debería uno aprender el aprendizaje automático desde cero en lugar de aprender a usar las bibliotecas disponibles?

¿Qué tan difícil sería implementar el aprendizaje por refuerzo para un juego de mesa?

¿Cuál es el significado conciso y la interpretación del sesgo y la varianza en el aprendizaje automático y las estadísticas?

¿Cuál sería la arquitectura más apropiada para entrenar una red neuronal basada en dos imágenes de entrada?

¿Cuál es el significado de los recientes anuncios de aprendizaje automático de código abierto?

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

¿Qué es el algoritmo de agrupación de Markov?