¿Cómo debo elegir una función de activación adecuada para la red neuronal?

El objetivo principal de la mayoría de las funciones de activación es introducir la no linealidad en la red para que pueda aprender patrones más complejos. Es, de hecho, la forma correcta de ver el problema de elección, porque las buenas matemáticas son la única forma conocida de prevenir errores.

Para fines educativos, es muy útil observar estas funciones en términos de lo que realmente hacen. De su clase de física, puede recordar los experimentos de óptica en los que la luz atraviesa un sistema de lentes diferentes; esta es una analogía perfecta. Sus datos de entrada son la luz, pueden estar en todo el espectro, lo que puede o no ser lo que desea. Entonces, si sabe exactamente lo que hace cada una de sus lentes, puede predecir cómo se vería su salida en principio.

En esta publicación, describiré la intuición detrás de las opciones de funciones, si realmente desea saber cómo funcionan las cosas, consulte Goodfellow et al. (2016) [1]

Lineal
El caso más simple, sin activación, la señal pasa sin cambios. Esta es una buena opción para problemas de regresión.
ReLU / ELU
[matemáticas] máx. (0, x) [/ matemáticas]

Básicamente, “Quiero ver solo lo que estoy buscando”. Esta es mi función favorita, porque proviene simultáneamente de la ingeniería eléctrica y la biología. Para dar una analogía biológica, cuando la señal entrante golpea la neurona, puede reconocerse como “menos relevante” o “más relevante”. Al poner a cero las señales “menos relevantes”, ReLU actúa como una neurona excitadora que reacciona a las señales relevantes y transmite más información sobre ellas. Esa es una de las razones por las que son muy útiles en la visión por computadora. Una regla general es usarlos después de capas convolucionales, pero a veces se pueden usar después de capas densas si desea activaciones más dispersas.
Recomiendo leer más al respecto, tanto en la literatura de CS como en la literatura científica general, Nature [2] tiene un artículo increíblemente emocionante que introdujo toda la idea.
Softmax
[matemáticas] \ frac {e ^ {x_i}} {\ sum \ limits_ie ^ {x_i}} [/ matemáticas]

También conocida como función “distribución de probabilidad de darme”. Si sabe que todo lo que sale de la capa debe ser una distribución, esto es lo que desea usar.
Otro ejemplo famoso es el uso de softmax como puerta. Si tiene una señal [matemática] x [/ matemática], una capa [matemática] L_1 [/ matemática] y desea decidir qué partes de [matemática] L_1 (x) [/ matemática] desea pasar más, usted puede introducir una puerta [matemática] L_2 (x) [/ matemática] con activación softmax que tiene la misma dimensionalidad. Un producto elemwise [matemática] L_1 (x) \ cdot L_2 (x) [/ matemática] después del entrenamiento contendrá la versión “filtrada” de [matemática] L_1 (x) [/ matemática], posiblemente ayudando a reducir el ruido en las siguientes capas .
Tanh
[matemáticas] \ frac {e ^ z – 1} {e ^ z + 1} [/ matemáticas]

En algunos casos, el signo de la salida es relevante, pero la magnitud puede alterar los cálculos posteriores. Tanh es una forma elegante de “aplastar” la salida en [matemática] [- 1, 1] [/ matemática], preservando el signo y conforme a las condiciones de contorno [matemática] f (0) = 0, f ‘(\ infty) = 0 [/ math]. Es útil cuando después de que la magnitud de la producción no procesada crece significativamente, el crecimiento adicional no es tan importante, y viceversa, cuando las fluctuaciones alrededor de cero hacen una diferencia significativa.

En aplicaciones prácticas, cuando las arquitecturas se vuelven más complejas y probablemente usará diferentes activaciones en diferentes partes de la red, la única forma de mejorar es obtener una exposición más amplia a las prácticas existentes, muchos buenos documentos contienen discusiones detalladas de tales opciones.

Notas al pie

[1] Aprendizaje profundo (serie de computación adaptativa y aprendizaje automático): Ian Goodfellow, Yoshua Bengio, Aaron Courville: 9780262035613: Amazon.com: Libros

[2] https://www.nature.com/nature/jo…

Aprendizaje automáticoAprendizaje profundoInformáticosProgramación informáticaProgramadoresRedes neuronales artificiales

¿Cuántas personas en el mundo son expertos en aprendizaje profundo para visión por computadora?

¿Cuáles son las principales diferencias entre los MOOC de aprendizaje automático de Caltech y Stanford?

¿Me puede explicar sobre el aprendizaje automático? ¿Cuál es el alcance del aprendizaje automático?

¿Cuáles son algunas reglas de clasificación de pulgares?

¿Qué métodos existen para combatir los problemas de gradiente de desaparición y explosión?

¿Cuál es la mejor cámara réflex digital de menos de 40,000 INR?

La función de activación de la última capa a menudo está vinculada a su tipo de problema: ¿es regresión, clasificación? A menudo, softmax se usa para clasificar entre clases teniendo una idea de las probabilidades de cada clase.

Por otro lado, las funciones de activación de capas ocultas es un tema interesante y en evolución. Las no linealidades permiten que la red aprenda una función altamente no lineal, y en teoría cada uno podría ser bueno para este objetivo. De todos modos, hay muchas diferencias en las propiedades de optimización y convergencia que utilizan diferentes funciones de activación.

Al comienzo de las redes neuronales profundas, muchos usaban sigmoides, funciones suaves no lineales que van asintóticamente a 0 y 1 cuando la variable va a -inf e inf, respectivamente. De todos modos, este tipo de funciones, especialmente en redes muy profundas, conducen al problema del gradiente de fuga: el gradiente de estas funciones puede ser muy pequeño y crear problemas computacionales.

Muchos comenzaron a usar ReLU, una función que es simplemente 0 si la variable de entrada es negativa o es una línea de la forma y = a * x si la variable de entrada es positiva. Se ha demostrado que conducen a un buen rendimiento y no sufren el problema del gradiente de fuga.

De todos modos, tienen otro problema: el hecho de que la salida sea igual a 0 cuando la entrada es negativa puede conducir a una “neurona muerta”, una neurona que nunca se dispara. (puede estudiar más este problema en la literatura). A menudo se encuentra una solución a este problema usando ELU: ReLU que no son exactamente 0 cuando x <0.

La elección de las funciones de activación adecuadas y la inicialización de los pesos es un problema central para que una red tenga el mejor rendimiento y para obtener una buena capacitación, y estos temas están bajo mucha investigación, puedes encontrar muchos documentos sobre esto, espero haberte dado Una idea introductoria.

Norman Di Palo

No existe una regla general en el campo de las redes neuronales. Todo depende de sus datos y de qué forma desea que se transformen los datos después de pasar por la función de activación.

Si desea elegir una función de activación particular, debe estudiar el gráfico de la función en cuanto a cómo cambia el resultado con respecto a los valores que se le asignan. Puede ver una lista elaborada de algunas funciones de activación aquí:

Función de activación – Wikipedia

Por lo tanto, analice la curva del gráfico, las propiedades de las funciones, la derivada y el rango en el que devolverá los valores y elija su función de activación.

Norman Di Palo

La selección del algoritmo viene después de una comprensión exhaustiva del problema que se le presenta. Por ejemplo, un problema podría ser la simple categorización en dos o más clases dado el conjunto de datos. Ahora esta categorización también puede depender de los atributos únicos o múltiples de los datos dados. Esto también juega un papel importante en la elección de la función de activación.
Cada función de activación tiene su propia propiedad de ‘aplastar’. Por ejemplo, RBF puede dar varias regiones limitadas que pueden no estar dadas por funciones sinusoidales. A veces, las funciones lineales pueden dar mejores resultados que las no lineales. Intente comprender el conjunto de datos y su variabilidad de acuerdo con la definición del problema.

Talvinder Singh

Un algoritmo que a mi asesor le encanta usar se llama “Descenso de estudiantes graduados”, que básicamente, dado un problema y un estudiante de posgrado, el estudiante probará todos los hiperparámetros posibles y obtendrá la solución al problema.

Las capas de activación son un tipo de hiperparámetro, y necesitarás experimentar con todas ellas para encontrar cuál funciona mejor para ti. Puede limitar su búsqueda haciendo referencia al trabajo previo en el campo para su problema particular. Por ejemplo, ya se ha demostrado que las activaciones de tanh funcionan mejor para la clasificación de imágenes, mientras que las ReLU con fugas funcionan mejor para secuencias temporales como el video.

Donald Wayne Ellis Jr

Simplemente puede usar un optimizador como hyperas y dejar que elija la mejor función de activación para su red: maxpumperla / hyperas.

Norman Di Palo

Regla general (con las advertencias habituales sobre las reglas generales) de Karpathy et al en CS231.

Varun Agrawal

Personalizándolo solo al sistema neuronal de los usuarios. Sabes cómo decir activar y sabes lo que quieres que haga. Eso debería ser suficiente para que una buena red neuronal funcione y complete con precisión el proceso

Talvinder Singh

More Interesting

¿Qué tan complejo debe hacer un corrector ortográfico básico a través del procesamiento del lenguaje natural para verificar los nombres de los hoteles?

¿Cuál es el significado de la investigación de OpenAI sobre estrategias de evolución y el hallazgo de que rivalizan con el desempeño del aprendizaje por refuerzo?

Cómo encontrar el siguiente número de la lista de números anteriores usando el aprendizaje profundo

Máquinas de factorización: ¿cómo hacen los FM para hacer predicciones y aprender?

¿La topografía emocional es relevante para IR?

¿Cuál sería la arquitectura más apropiada para entrenar una red neuronal basada en dos imágenes de entrada?

¿Cómo puedo explicar que las unidades tradicionales de red neuronal recurrente (RNN) sufren el problema del gradiente de fuga?

¿Qué tamaño debería tener mi bosque aleatorio aproximadamente si tengo 17 variables y medio millón de registros?

¿Qué significa 'estimación ML o MAP no captura la incertidumbre de los parámetros'?

¿En qué tipo de situaciones debemos emplear las redes neuronales recurrentes de Vanilla en lugar de LSTM?