¿Hay alguna esperanza de que encontremos una teoría de las redes neuronales?

Soy bastante inexperto acerca de las NN, pero no estoy de acuerdo con que sean irremediablemente inexplicables. Sí, muchos problemas se asignan a arquitecturas de red de manera poco intuitiva, y cuanto más profundas son las capas, menos obvio es cómo fluye la información y surgen los resultados. Pero algunas arquitecturas de red son definitivamente más intuitivas que otras.

Por ejemplo, las redes convolucionales profundas a menudo se parecen a la arquitectura multicapa del sistema visual humano. En realidad, es bastante sencillo rastrear los patrones de píxeles en una imagen de entrada a patrones de resonancia focal en las capas más bajas de la red, donde pequeños vecindarios de nodos reaccionan a formas particulares en la imagen (como segmentos de línea en ángulo o arcos). Las redes convolucionales de múltiples capas luego alimentan estos fragmentos (similares a las wavelets) a las capas más altas de la red, al igual que se hace en el cerebro humano, asociando así los fragmentos en formas colectivas interconectadas más grandes. Al desarrollar CNN, es posible y, a menudo, útil mostrar qué partes de la red corresponden a qué fragmentos y colectivos en la imagen original. A medida que la CNN aprende, puede monitorear dónde la red está enfocando su atención espacialmente. Puedes ver lo que ve, para un par de capas de todos modos.

Si bien muchos problemas no son tan susceptibles de rastrear su progreso a través de una red neuronal como el procesamiento de imágenes basado en CNN, con la práctica, muchos problemas (y sus características de interés) son en realidad más susceptibles de aclaración de lo que parece. Si esto no fuera así, sería imposible diseñar redes neuronales productivamente, de modo que la información de entrada pueda formular efectivamente una conclusión útil. Las arquitecturas de red, su proceso de aprendizaje y el flujo de información allí son todo menos aleatorios.

Pero ya tenemos uno.

Durante varias décadas se aplicó el análisis funcional para comprender las razones detrás de la efectividad de las redes neuronales. No es cierto que la investigación se concentre solo en el aspecto práctico, es decir, el desarrollo de nuevas arquitecturas.

El análisis funcional es ampliamente utilizado por los investigadores que trabajan en teoría detrás de las redes neuronales y el aprendizaje profundo en particular. Este campo fue inventado por científicos, no por ingenieros, por lo que la teoría estuvo ahí todo el tiempo.

Sin embargo, la teoría no recibe mucha atención del público, porque rara vez se usa en tareas prácticas.

Debo admitir que tampoco presto mucha atención a los documentos teóricos, pero de la cabeza puedo nombrar un artículo de Siegelmann y Sontag “Turing computability with neural nets” (1991) que es un buen ejemplo de fuerte respaldo teórico del campo.

Si desea obtener más información, eche un vistazo a Association for Computational Learning – Association for Computational Learning y Journal of Machine Learning Research

Su punto no está del todo claro aquí. Los NN no son suposiciones aleatorias, en cambio, las redes neuronales son aproximadores de funciones universales que en teoría (y esa es una prueba fundamental) pueden aproximar cualquier función si tiene suficientes capas y neuronas ocultas. La red neuronal en otro sentido es reconocedor de patrones o coincidencia de patrones, pero no emite ninguna estructura computacional de ningún tipo. Si por “estructuras computacionales emergentes” te refieres a la matriz de peso para cada capa que es otro punto. No hay una forma sistemática de explicar por qué esta matriz de peso es mejor que otra esperada por las métricas de precisión en un determinado conjunto de datos. En teoría, una red neuronal puede aproximar una función, pero en la práctica no sabemos qué tan buena es esta aproximación o por qué esta aproximación es mejor que otra.

Es cierto que los ANN actuales son más o menos una matriz en una caja negra, y que una vez que se entrena la matriz, no podemos expandirla o contraerla directamente. Por lo tanto, puede ser muy ineficiente en recursos y también es opaco. Todo esto parece bastante tonto. Seguramente hay mejores formas.
Sí. Estamos atrapados en un paradigma que estaba / está bien para su época, pero no hay razón para quedarse atascado en esta mecanización para siempre.
¿Hay otras formas de reconocer patrones? ¿Podrían algunos de ellos ser aún más efectivos? Posiblemente. Considere la situación en la que podemos transformar señales del dominio del tiempo al dominio de la frecuencia, luego analice el ‘patrón’ de la señal de manera más efectiva allí. En el futuro, ¿podremos transformar las ‘señales’ de datos y sus ‘patrones’ en otro dominio cognitivo u otro dominio y luego operar allí de manera más eficiente? Creo que sí. Y entonces podríamos usar otros medios que NNs. Medios que son más modulares o separables, y más fáciles de manejar en piezas. Es mi instinto: todavía no tengo un mecanismo, o estaría cambiando el mundo en este momento. Pero creo que estamos atascados demasiado en NNs y sabemos que no tenemos una buena teoría de la gran arquitectura para ellos. Con los ANN simplemente nos estamos aproximando a un modelo del cerebro, y ni siquiera conocemos definitivamente la arquitectura del cerebro. Entonces es realmente un juego de adivinanzas, y está todo listo para la evolución. Recuerde, los paradigmas cambian y evolucionan, como Thomas Kuhn señaló en La estructura de las revoluciones científicas, o tal vez fue en un número de Los cuatro fantásticos.