¿Algunas funciones de activación son mejores que otras en la red neuronal artificial?

Sí, las unidades lineales rectificadas [1] (ReLU) son funciones de activación de última generación que actualmente son útiles en capas convolucionales de una red neuronal convolucional (convNet).

El ReLU tiene buenas propiedades como:

  • Biológicamente plausible.
  • Activación dispersa.
  • Propagación de gradiente eficiente: no sufre de gradientes que desaparecen o explotan.
  • Computacionalmente barato: muy rápido de evaluar en comparación con las funciones tanh o sigmoideas.

La ReLU es básicamente una función de rampa [2] definida como:

[matemáticas] f (x) = max (0, x) [/ matemáticas]

Aunque esto puede ser problemático porque aprender para una neurona cuando [matemáticas] x <0 [/ matemáticas] no es posible debido al hecho de que la expresión anterior como una derivada cero en esa región. La neurona deja de aprender y propagar gradientes a través de ella cuando está en esa región. Por lo tanto, si ninguno de los datos en el conjunto de entrenamiento puede activarlo, permanecerá así, una neurona muerta.

El problema de las neuronas muertas se puede resolver agregando un factor de fuga para obtener el ReLU permeable como se indica a continuación:

[matemáticas] f (x) = máx. ({\ alpha} x, x) [/ matemáticas]

donde [math] \ alpha <1.0 [/ math] es un factor de fuga fijo

Hay muchas variantes, como la ReLU paramétrica por la cual [math] \ alpha [/ math] es entrenable y no solo un hiperparámetro fijo.

Luego, finalmente, se ha descubierto que las unidades lineales exponenciales [3] (ELU) superan a las ReLU en algunos problemas de clasificación.

Espero que esto ayude.

Notas al pie

[1] Rectificador (redes neuronales) – Wikipedia

[2] Función de rampa – Wikipedia

[3] http://image-net.org/challenges/…

Sí, algunas funciones de activación funcionan mejor en la práctica que otras funciones de activación, pero la respuesta real a esta pregunta es específica de cada caso.

Los puntos importantes a tener en cuenta sobre las funciones de activación son:

1. La función de activación asigna la entrada a otro dominio (puede ser lineal o no lineal)

2. Las funciones de activación afectan directamente la forma del límite de decisión.

3. La función de activación también juega un papel importante en la representación de características. Ayuda a capturar la correlación entre las características.

Ahora, elegir una función de activación depende de su problema y de los datos. Si los datos tienen características no lineales, una función de activación lineal simple no produciría un límite de decisión consistente con los datos. Por otro lado, si utiliza, por ejemplo, una función de activación de 10 grados para capturar características cuadráticas, el modelo probablemente tenderá a sobreajustar.

Algunas de las redes neuronales complejas recientes utilizan la función de activación RELU. Nuevamente, esto es específico del problema y uno necesita analizar el problema y examinar qué función de activación funcionaría mejor. En una nota general, para los modelos no lineales, se puede anticipar que RELU funcionará bien como lo ha hecho en muchas tareas complejas como el procesamiento de imágenes y el procesamiento del lenguaje natural.

Wikipedia proporciona una lista de funciones de activación utilizadas en estos días

Función de activación – Wikipedia

More Interesting

¿Cuál es una mejor manera de comenzar a aprender Ciencia de Datos, a través de cursos en línea o en un Instituto de capacitación?

¿Cómo se pueden usar las redes neuronales recurrentes para predecir el género a partir de los nombres de pila?

¿Es posible aplicar las técnicas de N-gram para el análisis de sentimientos?

¿Cómo detectamos el sobreajuste y la falta de ajuste en Machine Learning?

¿Por qué es importante la ciencia de datos?

Astronomía: ¿Cómo se puede usar el aprendizaje automático para la clasificación de galaxias?

¿Mi reproductor de caja de ritmo aprendió qué canción tocar a continuación?

¿Cómo se determinaría la relevancia de un artículo frente a algunas palabras clave?

¿La 'automatización' y la 'inteligencia artificial' conducirán al desempleo crónico y al colapso económico?

¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?

¿Qué aplicaciones se utilizan para la codificación TensorFlow?

¿Cómo toman decisiones las neuronas del cerebro? ¿Funcionan de la misma manera que las neuronas artificiales en ANN?

¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?

¿Por qué no es una práctica estándar publicar pesos de modelos entrenados junto con el código fuente para trabajos de investigación de aprendizaje profundo?

Estoy acostumbrado a codificar con C ++ y C #. ¿Cuál recomendaría implementar proyectos de ML a pequeña escala (NN y CNN clásicos) sin reinventar la rueda?