¿Por qué usar sigmoid y tanh como funciones de activación en LSTM o RNN no es problemático, pero este no es el caso en otras redes neuronales?

Sigmoid específicamente, se usa como la función de compuerta para las 3 compuertas (in, out, forget) en lstm, ya que genera un valor entre 0 y 1, no puede dejar que fluya o completar el flujo de información a través de las compuertas.

Tratar con el problema de gradiente de fuga para lstm es diferente al de una red profunda de alimentación hacia adelante. En lstm, el problema se resuelve mediante la estructura de red de un lstm, específicamente las diferentes puertas y una celda de memoria.

Para las redes profundas de avance, el problema del gradiente de desaparición se trata utilizando una función de activación diferente, unidades lineales rectificadas. Estas unidades lidian mejor con el problema común de saturación de activación que ocurre cuando se usa Sigmoid o tanh en redes profundas, lo que hace que el gradiente de fondo sea esencialmente cero cuando el paso directo se satura. Las unidades ‘relu’ no tienen este problema, además es computacionalmente menos complejo (sin funciones exponenciales como Sigmoid o tanh) y, por lo tanto, algo más rápido de calcular.

Related Content

¿Qué es Google Brain?

¿Cuáles son actualmente los temas candentes en la investigación en informática?

Estoy en la clase 12. Quiero hacer algunos trámites o investigar en informática. Quizás pequeño. Sé python y C ++. ¿Qué tengo que hacer?

Cómo mantenerse actualizado en el campo de la informática

Es a tiempo parcial Ph.D. ¿En CSE es una opción práctica si no puede dejar su trabajo?

¿Cuál es la mejor cámara para teléfonos inteligentes para tomar fotos y grabar videos con la mejor calidad (sin sesgos)?

¿Por qué es que cuando se requiere que los estudiantes universitarios (CS, IT o IS) realicen investigaciones / proyectos / tesis, siempre se trata del diseño y desarrollo de sistemas?

Comúnmente, las funciones de activación sigmoide y tanh son problemáticas (gradiente de fuga) en RNN, especialmente cuando se utiliza el algoritmo de entrenamiento BPTT. En LSTM, debido a las puertas, el problema de desaparición de gradiente no existe. Antes de dar los detalles del problema de desaparición de gradiente, me gustaría saber si el autor propone la pregunta correcta. ¡Gracias!

Kevin Sun

Debido a que la puerta de olvido en los LSTM permite que el gradiente se mantenga estable.

Gary Wang

More Interesting

¿Qué necesito saber para hacer un software que pueda leer y hacer un resumen de cualquier información?

¿Cómo es el Grupo de Sistemas CS de la Universidad de Chicago?

¿Elo tiene la misma calificación que PageRank?

¿Qué es la evaluación de la función booleana estocástica?

¿Los científicos actuales que están investigando sobre inteligencia artificial toman precauciones contra el "día del juicio"? ¿Están tomando medidas contra las computadoras que toman la teoría de la raza humana?

En la investigación de CS, ¿cuál es la relación de pensamiento a implementación?

¿Cuáles son las preguntas / temas de investigación más importantes en informática hoy en día?

¿Cuáles son algunos posibles temas de investigación en Computational Social Choice?

Si empiezo a leer artículos científicos, ¿cuáles son los documentos que deben leerse sobre la conversión de 'discurso a texto'?

¿Cuáles son algunas preguntas de investigación de doctorado en el campo del "proceso de ciencia de datos"?

¿Se puede resolver el problema de 3SUM en tiempo subcuadrático?

¿Cuáles son los temas candentes en informática para escribir un trabajo de investigación?

¿Cuál es el estado actual de la investigación en los árboles de búsqueda binarios concurrentes?

¿Cómo explicaría las pruebas probabilísticamente comprobables y el teorema de PCP a un estudiante universitario en informática?

¿Qué herramientas basadas en IA están disponibles para la investigación científica y las revisiones de literatura?

Web Analytics