Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?

El uso de una suma lineal de entradas permite que cada neurona resuelva funciones separables linealmente, por ejemplo, la función OR o la función AND. Históricamente, estos fueron los tipos de funciones que Minsky estudió por primera vez y que realizó gran parte del trabajo sobre los perceptrones (piense en los ANN de capa única). Usar una función cuadrática con un sigmoide para la neurona sería similar a transformar el espacio de entrada a la kernels en SVM, es decir, mapear el espacio de entrada a un espacio de mayor dimensión y luego limitar el resultado con la función sigmoide. No he examinado esto específicamente, pero estoy seguro de que hay muchos documentos que utilizan todo tipo de funciones de umbral y métodos de agregación.

Otro aspecto interesante de la agregación lineal es que es computacionalmente simple (también puede ser paralelizado), fácil de visualizar (es decir, hiperplanos que dividen el espacio de entrada) y demostrado ser un aproximador universal (para una capa oculta y funciones de activación monotónicas crecientes) para funciones continuas Además, la agregación lineal (que es solo el producto escalar de los vectores de peso y entrada) permite que tanto la propagación directa como la inversa se expresen únicamente en términos de cálculos matriciales, que pueden explotar bibliotecas matriciales rápidas (y hardware, como CUDA) y simplificar la codificación

La gente realmente usa una generalización de lo que estás hablando. Se denominan redes de suma de productos (SPN) y pueden construir con bastante facilidad cualquier polinomio en las variables de entrada: Página en Washington

No está claro en este momento si los SPN son más o menos potentes que los NN basados ​​en sigmoides, pero ciertamente es un área interesante para perseguir.