¿Cuáles son las ventajas de ReLU sobre softmax en la red neuronal profunda?

Como otros caballeros señalaron que una pregunta para competir entre ReLU y la función softmax no es una buena pregunta. una mejor es pedir competir con ReLU con sigomid porque el sigomid es una versión especial de la función softmax que tiene una salida de 2 estados. produce 0 en infinito negativo y 1 en infinito positivo, lo que nos permite identificar 2 estados con una neurona como el opuesto de un estado para cada neurona de la capa softmax (una capa con n neurona softmax obtendrá n estado en la salida pero con n sigmoide obtendrá 2 a la potencia de n estado, que es mucho más capacidad para la red neuronal).

Ahora hablemos de la deferencia entre sigmoid y ReLU:

ReLU tiene las siguientes propiedades:

  • Tiene derivada constante. Esa marca es muy buena para la red neuronal profunda que sufre un gradiente de desaparición y explosión cuando el gradiente de la función de activación no es constante porque el gradiente de una capa se multiplica por el gradiente de la siguiente capa cuando se propaga hacia atrás para que se hace exponencialmente más grande, por lo que lo llamamos gradiente explosivo si el gradiente es mayor que uno (por lo tanto, no es constante) o se hace más pequeño exponencialmente, por lo que lo llamamos desaparecer cuando el gradiente es menor que uno.
  • No es diferenciable en cero, lo que no es una muy buena opción cuando desea generar funciones continuas. Pero es mucho más poderoso cuando solo se extrae características de reconocimiento de patrones como en ConvNets, por ejemplo.
  • Tiene menos capacidad que la función sigmoidea. La función ReLu es solo una función de aproximación para la función softplus , que es la integral de la función sigmoidea, de modo que el primer punto es que es la función de aproximación la que tiene menos capacidad que la original:

  • El segundo punto es que si desea obtener la salida de la función sigmoidea de esa función, debe diferenciarla, por lo que para aproximar esta diferenciación, puede combinar dos funciones ReLU por sustracción de esta manera:
    f (x) = ReLU (x + 1) – ReLU (x – 1)
    esta función generará 0 en valores inferiores a -1 y 1 en valores superiores a +1 y será lineal entre -1 y 1, lo cual es una buena aproximación para sigmid. Puede ver que tiene que obtener 2 ReLU para aproximar un sigmoide y eso hace que el sigmoide tenga más capacidad.
    También puede considerar la baja capacidad como una ventaja en lugar de una desventaja, ya que reducirá la capacidad de su red para ajustar el ruido en los datos de entrenamiento.
  • ReLU es mucho más rápido de calcular. Es solo una declaración if que es mucho más rápida que la exponencial sigmoidea. Eso te da el poder de construir y entrenar redes más profundas con él.
  • Un punto importante es que la neurona ReLU puede morir cuando recibe un gran gradiente negativo que le permite aprender más porque su derivada es cero cuando su entrada es menor que cero, por lo que el gradiente será cero. Puede evitar esto inicializando cuidadosamente los pesos o usando ReLU filtrado, que es como ReLU pero su salida es lineal multiplicada por un valor pequeño (0.001 más o menos) cuando la entrada es negativa (consulte Wikipedia para más detalles).

Espero que esto tenga sentido para ti. Vea estos recursos para más información:
Rectificador (redes neuronales) – Wikipedia
¿Qué tienen de especial las unidades neuronales rectificadoras utilizadas en el aprendizaje NN?
¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?
Redes neuronales profundas, ¿RELU está eliminando la no linealidad?

Esta es una buena explicación para el gradiente de desaparición y explosión, se trata del gradiente de desaparición y explosión en RNN que utiliza funciones sigmoideas y cómo el LSTM resuelve este problema:
¿Cómo evita LSTM el problema del gradiente de fuga?

En primer lugar, debo señalar que estas no son dos cosas mutuamente excluyentes. La función softmax no se usa en capas ocultas, ya que normalmente solo se usa en la capa de salida. El propósito de esta función es dar probabilidades de que ocurran ciertas clases, por lo que no sería de mucha utilidad en las capas ocultas. Sin embargo, hay algunas ventajas clave para la función de activación ReLU que la convierten en una opción muy popular para usar en capas ocultas.

Primero, a medida que su red entrena, el gradiente tiene un valor constante. ¿Porque es esto importante? Cuando busca su mínimo, toma pasos proporcionales al negativo del gradiente. Entonces, si su gradiente se acerca a cero, dará pequeños pasos cuesta abajo cuando busque su mínimo y su red dejará de progresar. Esto da como resultado un tiempo de entrenamiento más rápido para las redes que utilizan una función de activación ReLU.

Segundo La función ReLU puede conducir a soluciones menos densas. Muchas funciones de activación, como el sigmoide, siempre generarán un valor distinto de cero. Esto significa que cada neurona será considerada en cada pase, ¡incluso si no la necesitamos! La función ReLU no siempre genera un valor distinto de cero, por lo que resulta en menos neuronas y menos dependencia entre las características. ¡Espero que ayude!

Como estoy seguro de que sabe, ReLU es una función no lineal basada en elementos, mientras que softmax es una función suave, normalizada y ganadora.

¿Qué ventajas tiene ReLU sobre softmax? Es una función no lineal no competitiva, por lo que puede usarse de manera útil incluso en un solo canal de datos de entrada.

No descarte softmax como algún tipo de función de probabilidad mágica de uso solo en la capa de salida. Eso no es lo que es softmax. Considere esta pequeña competencia:

MNIST profundo para expertos: 2 capas de ReLU. Puntuación: alrededor del 99,2% de precisión.

Una versión sin ReLU: 1 capa oculta, todo softmax. Puntuación: alrededor del 99,5% de precisión.

Softmax, usado sabiamente, puede hacer mucho.

gorobei9 / jtest: la red descrita anteriormente.

Ventajas de ReLU sobre Softmax, no es la pregunta correcta, creo.
Se utilizan para servir para diferentes propósitos.

ReLU se usa como una función de activación para una neurona individual, mientras que Softmax, en las prácticas convencionales de investigación de aficionados (junto con las publicadas), y en el desarrollo de todas las herramientas útiles, se usa para obtener la distribución de probabilidad en la totalidad de las categorías.

Entonces, con mi conocimiento limitado, concluiría que estas dos funciones no deben y no deben yuxtaponerse, ya que sirven para diferentes propósitos.

PD: Si encuentra algún defecto en mi respuesta, lea primero mi biografía y luego corríjame.

Ambos cumplen diferentes funciones en una red neuronal, por lo que no hay “ventaja de uno sobre el otro”. La función Softmax generalmente se usa solo en la capa de salida de una red neuronal para representar una distribución de probabilidad de posibles resultados de la red. Relu o lineal rectificado es una variante popular de las funciones de activación especialmente en convolucionales profundos para imponer la no linealidad a las activaciones entrantes.