¿Cuál es la relación entre softmax y sigmoide ya que sus derivados son similares?

El softmax es una generalización de la función sigmoide en el sentido de que un softmax para dos dimensiones (eventos) es exactamente la función sigmoide. Si una variable aleatoria [matemática] x [/ matemática] puede asumir uno de los dos valores [0,1], entonces:

[matemáticas] \ sigma _ {\ text {sigmoid}} (x) = \ frac {\ exp (x_j)} {\ exp (x_j) +1} [/ matemáticas]

De manera equivalente, pero de manera más general, si puede asumir uno de los valores [matemáticos] K [/ matemáticos], entonces:

[matemáticas] \ sigma _ {\ text {softmax}} (x_j) = \ frac {\ exp (x_j)} {\ sum \ limits_ {k = 0} ^ {K-1} \ exp (x_k)} [/ math ]

Debería ser sencillo ver que la primera ecuación es equivalente a la segunda cuando [matemática] K = 2 [/ matemática]. El Softmax, siendo más general, se define para cualquier número de eventos. Está relacionado con la llamada distribución “Multinouli” [1] en la misma forma en que un sigmoide está relacionado con la distribución de Bernoulli.

Softmax es muy útil como una capa de salida (distribución) para la clasificación o, en general, para modelar variables discretas en el aprendizaje automático.

[1] – Aprendizaje automático

Aprendizaje automático

Related Content

¿Por qué Bayes ingenuo se considera un modelo generativo?

¿Cómo se aplica el aprendizaje automático en genética o biología molecular?

¿Cuál es el mejor paquete R para predecir la causalidad entre dos flujos de datos de series temporales?

¿Qué necesitas para hacer aprendizaje automático?

Cómo asegurarse de no analizar algo que termina sin sentido

¿Son los modelos de n-gramas, la codificación de uno en caliente y word2vec diferentes tipos de representaciones de palabras y vectores de palabras?

¿Puedo hacer mi propio servidor en la nube sin usar ningún servicio preconstruido? ¿Si es así, entonces cómo?

Cualquier función en forma de S es una función sigmoidea. El ejemplo más famoso es la función logística. Tanto es así que cuando las personas dicen Sigmoide, a menudo se refieren a la función logística. Eso es lo que también asumiré para esta respuesta . También supongo que está preguntando en el contexto de la clasificación. Entonces, basemos nuestra respuesta en el dominio de la clasificación. Supongo que conoce algunos conceptos básicos de clasificación.

Suponga que tiene un clasificador de varias clases con K clases. Las probabilidades de clase se modelan utilizando la función Softmax.

[matemáticas] P (k) = \ frac {e ^ {\ theta_k ^ \ top x}} {\ sum_ {i = 0} ^ K e ^ {\ theta_i ^ \ top x}} [/ matemáticas]

Ahora, ¿qué sucede si solo tenemos 2 clases también conocidas como clasificador binario?

Todavía podemos usar la función Softmax. La expresión para k = 1 se simplifica a:

[matemáticas] P (1) = \ frac {e ^ {\ theta_1 ^ \ top x}} {e ^ {\ theta_1 ^ \ top x} + e ^ {\ theta_0 ^ \ top x}} [/ math]

Ahora, el clasificador Softmax tiene una propiedad interesante, es decir, podemos restar cierta cantidad de los parámetros y las predicciones seguirán siendo las mismas. Veamos cómo funciona eso.

[matemáticas] P (1) = \ frac {e ^ {(\ theta_1- \ alpha) ^ \ top x}} {e ^ {(\ theta_1- \ alpha) ^ \ top x} + e ^ {(\ theta_0 – \ alpha) ^ \ top x}} [/ math]

[matemáticas] P (1) = \ frac {e ^ {\ theta_1 ^ \ top x} e ^ {- \ alpha ^ \ top x}} {e ^ {\ theta_1 ^ \ top x} e ^ {- \ alpha ^ \ top x} + e ^ {\ theta_0 ^ \ top x} e ^ {- \ alpha ^ \ top x}} [/ math]

[matemáticas] P (1) = \ frac {e ^ {\ theta_1 ^ \ top x}} {e ^ {\ theta_1 ^ \ top x} + e ^ {\ theta_0 ^ \ top x}} [/ math]

Ahora podemos usar esta propiedad de una manera diferente. Establezcamos [math] \ alpha = \ theta_0 [/ math].

[matemáticas] P (1) = \ frac {e ^ {(\ theta_1- \ theta_0) ^ \ top x}} {e ^ {(\ theta_1- \ theta_0) ^ \ top x} + e ^ {(\ theta_0 – \ theta_0) ^ \ top x}} [/ math]

[matemáticas] P (1) = \ frac {e ^ {(\ theta_1- \ theta_0) ^ \ top x}} {1 + e ^ {(\ theta_1- \ theta_0) ^ \ top x}} [/ math]

Entonces, cuando tenemos 2 clases, la función Softmax se reduce a la función logística . Esa es la relación entre la función Softmax y la función logística. ¡¡Espero que esto ayude!!.

Abhishek Patnia

La función softmax es algo que no sabía, pero Wikipedia dice que es una “generalización de la curva logística”, mientras que la función sigmoidea es una curva logística, así que ahí está su relación.

Daniel Ho Kwan Leung

More Interesting

¿Qué sigue después del aprendizaje profundo?

¿Pueden Kmeans y el algoritmo DBSCAN dar el mismo resultado para un conjunto de datos en particular?

¿Cómo evaluaría un sistema de recomendación si todo lo que tiene son calificaciones de elementos de usuario?

¿Este sitio está actualizado o debo buscar datos?

Cómo hacer una carrera desde el nivel más básico hasta el nivel profesional en ciencia de datos, aprendizaje automático y aprendizaje profundo

Máquinas de factorización: ¿cómo hacen los FM para hacer predicciones y aprender?

¿Puedo hacer una competencia de kaggle con un archivo csv de entrenamiento de 0.5 Gb en mi computadora de 8 Gb y tener éxito?

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

¿Los HMM aún superan a los LSTM en pequeños conjuntos de datos?

¿Existe algún informe publicado que haya aplicado con éxito el aprendizaje profundo para un sistema de recomendación basado en contenido de texto?

¿Qué significa una probabilidad gaussiana en el clasificador bayesiano ingenuo gaussiano?

¿Qué es una red neuronal bayesiana?

¿Por qué usamos k-means clustering? ¿Qué usos tiene en un escenario del mundo real?

¿Cuántas estadísticas y probabilidades debo saber para sumergirme en el aprendizaje automático?

¿Cómo debería abordar el problema de segmentar el césped de una imagen?

Web Analytics