¿La normalización por lotes ayuda con las funciones de activación de ReLU?

Las ReLU no son transformaciones lineales. De hecho, la razón principal por la que existen funciones de activación es hacer posible que una red neuronal capture relaciones no lineales en los datos. Esta es la razón por la cual las funciones de activación a menudo se llaman “no linealidades”.

Si tiene algunos antecedentes en álgebra lineal, puede saber que una composición de transformaciones lineales es en sí misma una transformación lineal. Esta es la razón por la cual la introducción de no linealidades permite que la red neuronal haga representaciones cada vez más complejas y aproxima funciones arbitrariamente con precisión (teorema de universalidad). Si tenía una red neuronal con múltiples capas y sin funciones de activación, no importa cuán duro funcione, no podrá hacerlo mejor que la vieja regresión logística.

La cuestión de si usar ReLU o activaciones en tanh es empírica y no se comprende muy bien; Realmente depende del problema. A menudo, ambos le darán resultados de diferencia insignificante. La principal ventaja de las ReLU es que son muy rápidas. Sin embargo, si muchos de sus logits son negativos, puede encontrarse con un problema de gradiente que desaparece. Si sus logits son demasiado grandes, a diferencia de las capas de tanh, no se suprimirán y es posible que tenga problemas de estabilidad numérica. Para hacer las cosas aún más complejas, a menudo estas cosas ni siquiera afectan el rendimiento y son algunas de las razones que hacen que sea difícil entender por qué los RELU funcionan tan bien.

En pocas palabras: depende del problema. Debe intentar utilizar ambas funciones de activación y luego tomar una decisión de desarrollo sobre cuál mantener.

Si. Las funciones de activación de RELU siempre tienen una media positiva. Pero creo que cambiar los parámetros de normalización de lotes puede ayudar a deshacerse de esto.

Si.

Se usa porque 1) Se ocupa del problema interno de cambio de covariable (consulte el documento). 2) Funciona empíricamente bien.

More Interesting

¿Debo aprender el aprendizaje automático para IoT?

¿Cómo escapa / resiste una red neuronal profunda a la maldición de la dimensionalidad?

¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?

¿Cómo se utiliza el aprendizaje automático en el análisis de sentimientos?

¿Cómo afectan las imágenes que se filtran con diferentes filtros de imagen al entrenamiento de las redes neuronales profundas?

¿Es necesario un conjunto de validación si no se realiza un ajuste de hiperparámetro?

¿Cómo funcionan AdaGrad / RMSProp / Adam cuando descartan la dirección del degradado?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

¿Qué significa el aprendizaje automático?

Cómo aprender el aprendizaje automático en Python (con ejemplos)

¿Qué tan poderoso es la PNL?

Cómo elegir un optimizador para mi modelo de tensorflow

¿Crees que es posible generar historias, pistas dadas, usando técnicas de PNL?

¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?

¿Qué condiciones se deben cumplir para que el tiempo de ejecución se acelere al usar GPU para redes neuronales (NN)?