¿Cómo agrega la función de activación la no linealidad a las redes neuronales?

Tiene que ver con cómo funcionan las funciones.

Imagine una red neuronal sin una función de activación. todas las neuronas se comportan siguiendo una función que se ve así: [matemáticas] (\ sum \ limits_ {i = 1} ^ n v_i w_i) + b [/ matemáticas], donde [matemáticas] n [/ matemáticas] es el número de neuronas en la capa anterior, [math] v_n [/ math] es el valor de la enésima neurona, [math] w_n [/ math] es el peso de la enésima neurona y [math] b [/ math] es el sesgo. Es esencialmente un polinomio de primer grado, y no importa cuánto lo intentes, cada vez que anidas un polinomio de ese tipo en otro, obtienes un polinomio de primer grado, porque por definición, una función polinómica de primer grado nunca multiplica la variable por sí mismo, y nunca multiplica múltiples variables juntas. ¿Adivina cuál es la representación cartesiana de un polinomio de primer grado? Es una linea recta; así que, no importa cuánto lo optimices, una red como esa siempre será lineal.

Las funciones de activación, al no ser lineales, pueden representar bastante bien otros tipos de funciones, y aquí hay una demostración:

“Función” es una función que quiero aproximar (es [matemática] min (0, x ^ 2 [/ matemática]))

“ReLU” es una función de activación ampliamente utilizada, que se puede expresar como min (0, x).

“Aprox” es mi aproximación de la función usando solo ReLU. Es [matemática] ReLU (x) / 2 + ReLU (x – 0.5) + ReLU (x – 1) + ReLU (x – 1.5) [/ math].

Aprendizaje automáticoAprendizaje profundoInformáticosInteligencia ArtificialProgramación informáticaProgramadoresRedes neuronales artificiales

Related Content

¿Debería haber un límite en la tecnología y la automatización, especialmente en IA, que emociona la mente humana y desafía la existencia humana física?

¿Cómo es tener a Daphne Koller o Andrew Ng como su asesor de investigación?

¿Cómo implementamos el filtrado o el seguimiento del correo no deseado mediante una red neuronal?

¿Cuáles son los mayores defectos en la IA de Age of Empires II?

¿Cuáles son algunos de los juegos de computadora que son específicamente difíciles de imposibles para que la IA juegue tan bien como un humano?

Si una máquina aprende algo del aprendizaje automático, ¿está creando un nuevo código que puede transferirse a otras máquinas?

¿Cuál es la forma más rápida de obtener dinero de internet?

De la misma manera que en otros sistemas no lineales. Un sistema lineal se define como:

[matemáticas] f (a_ {1} x_1 + a_ {2} x_2) = a_ {1} f (x_1) + a_ {2} f (x_2) [/ matemáticas]

Para agregar no linealidad a una red neuronal, uno simplemente necesita seleccionar una función de activación de manera que la expresión anterior no se satisfaga para algunas entradas. Al hacerlo, se evita que toda la red neuronal multicapa (NN) se colapse en una sola NN equivalente en capas.

Todas las funciones de activación son no lineales, incluso la unidad lineal rectificada (ReLU), porque la expresión anterior no se satisface completamente en todo el dominio de entradas a la ReLU.

Espero que esto ayude.

Chomba Bupe

More Interesting

¿Es esencial aprender C ++ como estudiante de visión por computadora?

¿Aleatorización en algoritmos evolutivos (genéticos)?

Teniendo en cuenta la cantidad de datos que genera un sitio Web2.0 todos los días y su valor en el escenario actual, ¿cree que el aprendizaje automático debería ser el núcleo de la tecnología de cualquier producto? Si es así, ¿qué arquitectura recomendaría en este tipo de casos?

¿Qué tan difícil es la clase de inteligencia artificial de Patrick Winston en el MIT?

¿Cuál es el método posible para crear artificialmente / científicamente una nueva especie humana?

¿Cuáles son algunas cosas cotidianas simples que podrían arreglarse o mejorarse con IA?

Tecnología: ¿Por qué la gente teme a un escenario de Skynet?

¿Qué es la prueba de Turing?

¿Cuáles son algunas técnicas para construir un sistema de recomendación de expertos?

¿Cuáles son algunos buenos temas de investigación en redes neuronales artificiales o minería de datos?

¿Cuáles son ejemplos de aprendizaje automático en la industria de viajes?

¿Pueden las sociedades ser redes neuronales donde las personas individuales son nodos?

¿Qué chatbot debo construir para ganar dinero?

¿Podemos saber las cosas técnicas en un robot?

¿Qué matemática se usa en el aprendizaje automático / investigación de inteligencia artificial?

Web Analytics