Las ReLU no son transformaciones lineales. De hecho, la razón principal por la que existen funciones de activación es hacer posible que una red neuronal capture relaciones no lineales en los datos. Esta es la razón por la cual las funciones de activación a menudo se llaman “no linealidades”.
Si tiene algunos antecedentes en álgebra lineal, puede saber que una composición de transformaciones lineales es en sí misma una transformación lineal. Esta es la razón por la cual la introducción de no linealidades permite que la red neuronal haga representaciones cada vez más complejas y aproxima funciones arbitrariamente con precisión (teorema de universalidad). Si tenía una red neuronal con múltiples capas y sin funciones de activación, no importa cuán duro funcione, no podrá hacerlo mejor que la vieja regresión logística.
La cuestión de si usar ReLU o activaciones en tanh es empírica y no se comprende muy bien; Realmente depende del problema. A menudo, ambos le darán resultados de diferencia insignificante. La principal ventaja de las ReLU es que son muy rápidas. Sin embargo, si muchos de sus logits son negativos, puede encontrarse con un problema de gradiente que desaparece. Si sus logits son demasiado grandes, a diferencia de las capas de tanh, no se suprimirán y es posible que tenga problemas de estabilidad numérica. Para hacer las cosas aún más complejas, a menudo estas cosas ni siquiera afectan el rendimiento y son algunas de las razones que hacen que sea difícil entender por qué los RELU funcionan tan bien.
- ¿Por qué es importante la eliminación de variables en los modelos gráficos probabilísticos?
- ¿Puede el aprendizaje automático ayudar con la ciencia del clima?
- ¿Cómo implementaría el servicio de noticias de Quora?
- ¿Cómo es ser ingeniero de aprendizaje automático en Quora?
- ¿Los departamentos de policía en los EE. UU. Usan el aprendizaje automático para encontrar patrones en los datos delictivos?
En pocas palabras: depende del problema. Debe intentar utilizar ambas funciones de activación y luego tomar una decisión de desarrollo sobre cuál mantener.