En los algoritmos de aprendizaje automático, ¿por qué la función sigmoidea se usa principalmente y no funciones como tanh (x)? En tanhx por ej. parece dividir el eje y de manera uniforme y aplanarse rápidamente a medida que x se aproxima a +/- infinito. El rango es: sigmoide [0-1] y tanh (x) [-1,1].

La función sigmoidea (con la cual supongo que se refiere a la función logística) se usa con más frecuencia que la tangente hiperbólica por una serie de razones, la más común de las cuales es probable la capacidad analítica (la derivada de la función logística es “más agradable” que la derivada de la función tanh, por ejemplo) y la convención / interpretabilidad (la función logística es fundamental en estadística, donde es el CDF de la distribución logística y el inverso de la función de enlace en regresión logística). Dicho esto, tanto la función logística como la función tanh son opciones populares para la función de activación en redes neuronales, lo que supongo es la motivación para su pregunta.

Con respecto a su punto de que la función tanh es antisimétrica respecto al origen, la función logística se transforma fácilmente para tener esta propiedad al multiplicar por 2 y restar 1. De hecho, las funciones logísticas y tanh están unidas por la ecuación

[matemáticas] \ textrm {tanh} (x) = 2 \ cdot \ textrm {logística} (2x) – 1 [/ matemáticas],

para que la relación entre las dos funciones sea tan simple como la transformación antes mencionada, hasta un factor de estiramiento de 2.

La razón principal por la que se usa la función logística en lugar de otras funciones (es decir, probit, tanh, etc.) es que cuando usa la función logística, solo las diferencias de las probabilidades de registro son importantes para la regresión. La consecuencia muy importante de esto es que el muestreo condicional en la variable dependiente no distorsiona el valor esperado de los coeficientes de regresión. Lo que esto significa es que si está estudiando alguna enfermedad rara (donde digamos que el 0.01% de la población tiene la enfermedad), está bien tomar muestras de la población de personas con la enfermedad rara a una tasa mucho más alta (así que supongamos que su muestra contiene 50 % de personas que tienen la enfermedad), y esto no distorsionará su regresión. Si usa otras funciones o dice, regresión de mínimos cuadrados ordinarios, esto no se cumple, y es un gran problema.

Una de las razones por las que se prefirió sigmoid a tanh () es histórica . Las redes neuronales artificiales comenzaron con la motivación de modelar cómo funciona el cerebro humano. Y sabíamos de la “activación” de la neurona biológica: una neurona está en un estado no excitado, en cuyo caso pasa una señal 0, o se “activa” cuando las entradas están por encima de un umbral. Cuando se activa la neurona, se dice que “dispara”, es decir, transmite una señal distinta de cero. Eso es precisamente capturado por

[matemáticas] y = signo (w ^ Tx + b) [/ matemáticas]

La ecuación del perceptrón. Aquí, [matemática] w ^ Tx [/ matemática] es la entrada a la neurona, [matemática] -b [/ matemática] es análoga al umbral de la neurona biológica, si la entrada a la neurona es mayor que [matemática] -b [/ math], entonces obtienes una salida distinta de cero. El término “función de activación” también proviene de la misma fuente.

Ahora, la aproximación natural a la función de signo para hacerla diferenciable es la función sigmoide, que pasa suavemente de 0 a 1.

Una razón por la que se prefiere la logística sobre tanh (x) es que el comportamiento de “umbral suave” de tanh (x) es muy brusco. Para valores bajos de | x |, tanh (x) es casi lineal y parece carecer de un umbral / límite en el eje y. Para valores altos de | x | parece tener un umbral duro, es decir, los valores son casi +/- 1.

Es decir, la “curva” s en la curva tanh (x) donde transita a un valor de +/- 1 ocurre dentro de un rango muy pequeño de x.

En comparación, el comportamiento convergente de la logística es más suave.

Puedo pensar en un par de otras razones por las cuales el uso de la función logística es matemáticamente conveniente : encaja en el marco del modelo lineal generalizado, y es la versión discriminativa de Naive Bayes clasificador generativo (para entradas discretas).

Una razón por la que puedo pensar es que el resultado de la regresión logística puede interpretarse como la probabilidad de observar cierta respuesta y la probabilidad debe ser un número entre 0 y 1, inclusive.

Un número cae fuera de ese rango simplemente no tiene ningún sentido.

La función logit es la función de enlace canónico (inverso del parámetro canónico) de la distribución de Bernoulli (todos los casos de clasificación binaria) y sigmoide, como el inverso de logit, se convierte en la función de activación en el modelo lineal generalizado para clasificaciones binarias.

More Interesting

¿Cuál es mejor? ¿AI o machine learning nanodegree por Udacity?

¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?

¿Cuál es la forma correcta de calcular la similitud de coseno entre una consulta y un documento? Cuando calculo la magnitud del documento, ¿sumo los cuadrados de todos los términos del documento o solo los de la consulta?

¿Cuáles son los trabajos más gratificantes para quienes desean trabajar en el aprendizaje profundo?

¿Qué métodos / códigos están disponibles para estudiar un corpus que consiste en correos electrónicos?

¿Qué método de reducción de dimensionalidad puede mantener las relaciones de traslación entre puntos?

¿Soy un desarrollador de dinosaurios si no uso Github, no conozco CI / CD y docker y solo conozco el aprendizaje profundo de la palabra de moda?

¿Cuáles son algunos modelos matemáticos o técnicas estadísticas que son útiles para los científicos que trabajan con grandes datos?

¿Hay algún programa en desarrollo que pueda escuchar un idioma y comenzar a aprenderlo, como en Star Trek?

¿Cuáles son algunos ejemplos del mundo real de cómo y / o dónde se utilizan los algoritmos?

Me gustaría trabajar en Apple como ingeniero de Machine Learning. Sé un poco de Python y R, ¿cómo me distingo de otros candidatos?

¿Cómo debo comenzar con las redes neuronales recurrentes?

¿Cuándo la pérdida cuadrada no es buena para la función de pérdida para la regresión?

¿Qué son los SVM?

¿Cuáles son las opiniones de Yoshua Bengio sobre Kaggle y el aprendizaje automático competitivo en general?