¿Cuál es la diferencia entre los diferentes tipos de funciones de activación para redes neuronales y por qué es importante elegir una sobre otra?

Su gradiente en particular ha recibido mucho interés últimamente. El conocido problema del “gradiente de fuga” a menudo se describe como causado por las funciones sigmoideas y tanh cuando alcanzan su saturación. En estos puntos, el gradiente se volverá bastante plano y hará que el aprendizaje se ralentice.

Por esta razón, las unidades ReLu han sido un gran avance al permitir que modelos más profundos sean entrenados desde cero a menudo sin entrenamiento previo. Se comportan linealmente la mayor parte de su tiempo y el gradiente no desaparecerá tanto. Sin embargo, este comportamiento ha sido recientemente sospechoso de causar problemas con “ejemplos adversos”. ([1412.6572] Explicación y aprovechamiento de ejemplos adversarios)

Se han propuesto otras funciones de activación más nuevas que se llaman eLu y cosas similares. Todos intentan deshacerse del problema del gradiente de fuga (la saturación) y lidiar con la discontinuidad.

El sigmoide y el tanh y aquellos fueron motivados principalmente por analogías biológicas.

Related Content

¿Dónde puedo obtener un conjunto de datos de notas de suicidio para fines de aprendizaje automático?

¿Cuáles son los últimos algoritmos y técnicas para la corrección ortográfica?

¿Qué profesores / grupos / laboratorios están trabajando en el aprendizaje profundo en el MIT?

¿Dónde puedo encontrar los mejores tutoriales de aprendizaje automático como principiante?

¿Cuál es la función de zeropad en CNN?

¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?

¿Qué significan los tonos asociados con los diferentes dígitos de un teléfono al marcar un número?

¿Cuál es la diferencia entre los diferentes tipos de funciones de activación?

Su

Rango de valores (sigmoide: 0-1, tanh: -1, 1): esto es importante si desea entrenar un codificador automático
Gradiente (puede ser importante para la velocidad de aprendizaje)
Tiempo de cálculo eventual: no estoy seguro de cuán relevante es para las funciones de activación comunes

La función de activación softmax es especial en el sentido de que se aplica comúnmente en la última capa para obtener probabilidades de problemas de clasificación.

Tobias Würfl

More Interesting

¿Cómo es usar las API de servicios cognitivos de Microsoft?

¿Qué tan fácil es aprender una función booleana con Descenso de gradiente usando un aprendizaje profundo?

RNN para modelado de idiomas en Tensorflow. ¿Cómo puedo rellenar las secuencias si mi entrada está constituida por la incorporación de palabras?

¿Los bosques aleatorios son solo un tipo de Monte Carlo?

¿Cómo se usa la informática en su trabajo / campo?

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Por qué la inteligencia artificial se vuelve agresiva?

Soy un graduado en ingeniería eléctrica. Quiero seguir estudios superiores en aprendizaje automático o inteligencia artificial en EE. UU. ¿Qué tengo que hacer?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?

Comencé a aprender Machine Learning pero estoy luchando con conceptos matemáticos como la regresión lineal. ¿Cuál debería ser mi punto de partida en tal caso?

¿Quiénes son los grandes nombres en el campo de investigación de los sistemas de recomendación?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

Web Analytics