¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

Hay dos beneficios principales:

Las ReLU son mucho más simples computacionalmente. Los pasos hacia adelante y hacia atrás a través de una ReLU son solo una simple declaración if. Compare esto con la activación sigmoidea, que requiere calcular un exponente. Esta ventaja es enorme cuando se trata de grandes redes con muchas neuronas, y puede reducir significativamente los tiempos de entrenamiento y evaluación.
Las activaciones sigmoideas son más fáciles de saturar. Hay un intervalo de entradas comparativamente estrecho para el cual la derivada del sigmoide es suficientemente distinta de cero . En otras palabras, una vez que un sigmoide alcanza la meseta izquierda o derecha, casi no tiene sentido hacer un paso hacia atrás, ya que la derivada está muy cerca de 0. Por otro lado, las ReLU solo se saturan cuando la entrada es menor que 0. E incluso esta saturación se puede eliminar mediante el uso de ReLU con fugas. Para redes muy profundas, la saturación dificulta el aprendizaje, por lo que las ReLU proporcionan una buena solución.

¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?

¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?

Me encanta codificar. '¿Hay alguna comunidad en la que pueda participar en pequeños proyectos para poder conectarme a ellos de forma remota y aprender?

¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?

Aprendizaje profundo: ¿Una versión suave de unidades lineales rectificadas funciona mejor o peor que una no lineal?

Beneficios:

No hay problema de desaparición de gradiente

Al comparar los gráficos de ReLU frente a sigmoide, puede ver que la función sigmoide se “aplana” lejos de cero. Es decir, durante la propagación hacia atrás, cuando pasa un gradiente de regreso a través de estas funciones, la función sigmoide reducirá a cero el gradiente si la activación es alta.
Los resultados de las capas en el paso directo son demasiado altos para que este tipo de activaciones respalden un gradiente significativo y, por lo tanto, la red no puede aprender.
ReLU evita que este problema ocurra al proporcionar una función no lineal que no se satura (la derivada siempre es solo 1 para x> 0, lo que significa que actúa como una función de identidad en backprop)
2. Escasez de la activación.
Imagine una gran red neuronal con muchas neuronas. El uso de un sigmoide hará que casi todas las neuronas se disparen. Eso significa que casi todas las activaciones se procesarán para describir la salida de una red que hace que la activación sea densa. Esto resulta ser costoso. Lo ideal sería que algunas neuronas de la red no se activen y, por lo tanto, las activaciones sean escasas y eficientes.
ReLU nos da este beneficio. Imagine una red con pesos inicializados aleatorios (o normalizados) y casi el 50% de la red produce activación 0 debido a la característica de ReLU (salida 0 para valores negativos de x). Esto significa que se activan menos neuronas (activación dispersa) y la red es más ligera.

3. Menos costoso computacionalmente

ReLU es menos costoso desde el punto de vista computacional que sigmoide porque implica operaciones matemáticas más simples (descubrir solo los valores máximos en comparación con los cálculos exponenciales involucrados en sigmoide)

Balaji Krishnapuram

Las redes neuronales profundas con unidades lineales rectificadas (ReLU) a menudo se pueden entrenar en un modo supervisado directamente sin requerir entrenamiento previo (explicado a continuación).

Hasta ~ 2012 (es decir, hasta que se publicó ReLU), las redes neuronales con funciones de activación sigmoideas u otras se capacitaron primero en una fase de aprendizaje no supervisada, ignorando las etiquetas proporcionadas para el aprendizaje supervisado. Posteriormente, con esto como una buena inicialización, se utilizaron métodos de aprendizaje supervisado para ajustar los pesos aprendidos en la etapa anterior utilizando las etiquetas. El entrenamiento previo fue necesario porque a menudo vimos redes neuronales tan profundas atascadas en máximos o mesetas locales cuando se entrenaba directamente en un modo supervisado.

Además de no requerir capacitación previa, el uso de ReLU también reduce sustancialmente el costo computacional para la capacitación de la red. Esto permite el entrenamiento de redes más grandes con más parámetros al mismo costo computacional, lo que conduce a una mayor capacidad y, a menudo, también a una mayor precisión del conjunto de pruebas.

Ofir Nachum

Puede leer nuestro artículo reciente para conocer muchas ideas interesantes sobre estas redes, [1611.01491] Comprensión de las redes neuronales profundas con unidades lineales rectificadas ¡Por ejemplo, mostramos que con una capa oculta y con una entrada estas redes son entrenables en tiempo polinómico! ¡No creo que esto sea cierto para ningún otro tipo de redes!

Anirbit Mukherjee

More Interesting

¿En qué se diferencia un autoencoder (apilado) de un MLP, aparte de que los autoencoders aprenden funciones de identidad aproximadas?

Cómo implementar clustering basado en densidad

Cómo usar mel-spectrogram como entrada de una CNN

¿El aprendizaje automático es algo que no llegará demasiado lejos si no tiene la formación académica adecuada? Dado que hay tanto en Internet, ¿se puede entender?

¿Cuáles son algunas de las estadísticas más importantes y más engañosas en la predicción de partidos de fútbol?

¿Por qué a veces vanilla SGD y Momentum superan a los optimizadores como AdaDelta en el aprendizaje profundo?

Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?

¿Por qué la regresión logística se considera un modelo lineal?

¿Será posible predecir cuándo y qué producto comprará alguien con una precisión útil?

¿Puede una sola red neuronal de capa oculta aprender a jugar Atari Pong desde píxeles sin formato de un solo cuadro?