Las unidades ReLU se ven así:
Lo realmente bueno de esta función es que el gradiente es 0 o 1, lo que significa que nunca se satura, por lo que los gradientes no pueden desaparecer, se transfieren perfectamente a través de una red. Por supuesto, esto significa que puede obtener ReLU “muertos”, que devuelven 0 para siempre, y nunca aprender porque el gradiente nunca se pasa. Esto es diferente a algunas de las no linealidades más ingenuas y anteriores que se usaron en redes neuronales como Sigmoid o Tanh . La función sigmoidea, por ejemplo, se ve así:
- ¿La IA es capaz de una conciencia autónoma sin programación? ¿Puede un sistema arrancar su propia programación para autorregularse y ser sabiamente equivalente a una conciencia formadora de vida?
- ¿Qué harías si se te pidiera implementar AI en un sitio web o aplicación?
- ¿Qué pasará con el valor de la moneda cuando la IA y los robots se hagan cargo de la economía?
- ¿La IA realmente refleja las capacidades cognitivas del cerebro humano?
- Redes neuronales artificiales: ¿por qué utilizamos la función softmax para la capa de salida?
El gráfico rojo es la función sigmoidea, y el gráfico verde es su derivada. Observe cómo la derivada (verde) se reduce a cero en ambos extremos de su activación. Esta es la causa de los gradientes que desaparecen en las redes de avance (los gradientes que desaparecen en los RNN generalmente se deben a la multiplicación continua sobre la misma matriz de peso). La explosión de gradientes en las redes de retroalimentación no es muy común, pero puede deberse a “acantilados de gradiente” en el espacio de parámetros, que pueden lanzar parámetros al espacio, esto generalmente se debe a la mala regularización o las malas tasas de aprendizaje, en lugar de la falta de ReLU .