Sí, las unidades lineales rectificadas [1] (ReLU) son funciones de activación de última generación que actualmente son útiles en capas convolucionales de una red neuronal convolucional (convNet).
El ReLU tiene buenas propiedades como:
- Biológicamente plausible.
- Activación dispersa.
- Propagación de gradiente eficiente: no sufre de gradientes que desaparecen o explotan.
- Computacionalmente barato: muy rápido de evaluar en comparación con las funciones tanh o sigmoideas.
La ReLU es básicamente una función de rampa [2] definida como:
- ¿Cuál es una buena referencia para aprender cómo implementar y usar la búsqueda de línea para la optimización?
- ¿Por qué el libro de Murphy dice en el clasificador generativo que no tenemos que volver a entrenar el modelo cuando agregamos más clases?
- ¿Tendrán alguna coincidencia los modelos gráficos probabilísticos y el aprendizaje profundo?
- ¿Es posible combinar dos algoritmos no supervisados en serie para maximizar la precisión?
- Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?
[matemáticas] f (x) = max (0, x) [/ matemáticas]
Aunque esto puede ser problemático porque aprender para una neurona cuando [matemáticas] x <0 [/ matemáticas] no es posible debido al hecho de que la expresión anterior como una derivada cero en esa región. La neurona deja de aprender y propagar gradientes a través de ella cuando está en esa región. Por lo tanto, si ninguno de los datos en el conjunto de entrenamiento puede activarlo, permanecerá así, una neurona muerta.
El problema de las neuronas muertas se puede resolver agregando un factor de fuga para obtener el ReLU permeable como se indica a continuación:
[matemáticas] f (x) = máx. ({\ alpha} x, x) [/ matemáticas]
donde [math] \ alpha <1.0 [/ math] es un factor de fuga fijo
Hay muchas variantes, como la ReLU paramétrica por la cual [math] \ alpha [/ math] es entrenable y no solo un hiperparámetro fijo.
Luego, finalmente, se ha descubierto que las unidades lineales exponenciales [3] (ELU) superan a las ReLU en algunos problemas de clasificación.
Espero que esto ayude.
Notas al pie
[1] Rectificador (redes neuronales) – Wikipedia
[2] Función de rampa – Wikipedia
[3] http://image-net.org/challenges/…