¿Cuál es la diferencia entre los diferentes tipos de funciones de activación para redes neuronales y por qué es importante elegir una sobre otra?

Su gradiente en particular ha recibido mucho interés últimamente. El conocido problema del “gradiente de fuga” a menudo se describe como causado por las funciones sigmoideas y tanh cuando alcanzan su saturación. En estos puntos, el gradiente se volverá bastante plano y hará que el aprendizaje se ralentice.

Por esta razón, las unidades ReLu han sido un gran avance al permitir que modelos más profundos sean entrenados desde cero a menudo sin entrenamiento previo. Se comportan linealmente la mayor parte de su tiempo y el gradiente no desaparecerá tanto. Sin embargo, este comportamiento ha sido recientemente sospechoso de causar problemas con “ejemplos adversos”. ([1412.6572] Explicación y aprovechamiento de ejemplos adversarios)

Se han propuesto otras funciones de activación más nuevas que se llaman eLu y cosas similares. Todos intentan deshacerse del problema del gradiente de fuga (la saturación) y lidiar con la discontinuidad.

El sigmoide y el tanh y aquellos fueron motivados principalmente por analogías biológicas.

¿Cuál es la diferencia entre los diferentes tipos de funciones de activación?

Su

  • Rango de valores (sigmoide: 0-1, tanh: -1, 1): esto es importante si desea entrenar un codificador automático
  • Gradiente (puede ser importante para la velocidad de aprendizaje)
  • Tiempo de cálculo eventual: no estoy seguro de cuán relevante es para las funciones de activación comunes

La función de activación softmax es especial en el sentido de que se aplica comúnmente en la última capa para obtener probabilidades de problemas de clasificación.

More Interesting

¿Cómo es usar las API de servicios cognitivos de Microsoft?

¿Qué tan fácil es aprender una función booleana con Descenso de gradiente usando un aprendizaje profundo?

RNN para modelado de idiomas en Tensorflow. ¿Cómo puedo rellenar las secuencias si mi entrada está constituida por la incorporación de palabras?

¿Los bosques aleatorios son solo un tipo de Monte Carlo?

¿Cómo se usa la informática en su trabajo / campo?

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Por qué la inteligencia artificial se vuelve agresiva?

Soy un graduado en ingeniería eléctrica. Quiero seguir estudios superiores en aprendizaje automático o inteligencia artificial en EE. UU. ¿Qué tengo que hacer?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?

Comencé a aprender Machine Learning pero estoy luchando con conceptos matemáticos como la regresión lineal. ¿Cuál debería ser mi punto de partida en tal caso?

¿Quiénes son los grandes nombres en el campo de investigación de los sistemas de recomendación?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?