¿Cuál es la función de transferencia en redes neuronales artificiales?

La función de transferencia, o función de activación, como se le llama más comúnmente, es una función monotónicamente creciente, continua y diferenciable, aplicada a la entrada ponderada (o llamémosla salida preliminar) de una neurona para producir la salida final.

Históricamente, se utilizó una función sigmoide para imitar el comportamiento observado de las neuronas reales. Más tarde se descubrió que esto conduce al problema de la desaparición de gradientes en redes neuronales profundas. Por esta razón, la función de activación más utilizada hoy en día es el rectificador, que es la función de identidad para todos los valores mayores o iguales a 0 y 0 para todos los valores negativos.

La función de activación es fundamental para la idea de redes neuronales por dos razones:

  • Primero, si no hubiera funciones de activación, toda la red neuronal podría reducirse a un grupo de funciones lineales de la entrada de la red: una función lineal para cada neurona de salida. Entonces, sin funciones de activación, una red neuronal no podría aprender relaciones no lineales.
  • Y segundo, se puede ver que cada neurona reconoce una determinada característica, con una activación de 0 que indica la ausencia de esa característica. Un valor negativo no se puede interpretar en este marco (por ejemplo, si la característica es, por ejemplo, una forma redonda, entonces un valor positivo indica la fuerza con la que la red cree que hay una forma redonda y un valor de 0 significa que no hay forma redonda. Obviamente, no puede haber menos que ninguna forma redonda).

Un punto más que me confundió al principio: cada red solo tiene una función de activación, que se utiliza para todas las neuronas en esa red.

Y dos excepciones:

  • La regla de una función de activación no cuenta una posible capa SoftMax antes de la salida de red como una función de activación.
  • Nada de lo dicho aquí se aplica a los Mapas autoorganizados.

More Interesting

Un fundador de un fondo de cobertura me dijo que los graduados de doctorado en Big Data / ML están generando un millón de dólares al año como salario en el comercio / fondos de cobertura. ¿Qué tan correcto es esto?

¿Puedo trabajar en Google Machine Learning con una licenciatura en Informática pero habiendo realizado dos pasantías y 3 proyectos de código abierto?

¿Alguna de las bibliotecas actuales de aprendizaje profundo permite restricciones de monotonicidad?

En un juego de billar, ¿puede el mejor robot (diseñado específicamente para esta tarea) derrotar al campeón mundial humano?

¿Por qué usar Kohonen SOMs sobre K-means, o viceversa?

¿Cuáles son los requisitos previos para comenzar todo este aprendizaje automático, procesamiento del lenguaje natural, aprendizaje profundo, etc.?

¿Cómo aplicamos el algoritmo de agrupamiento k-means para datos mixtos numéricos y categóricos?

¿Cuál es un buen libro para estadísticas como una consideración de ML para principiantes?

¿Qué pensaría BF Skinner del aprendizaje automático?

¿LinkedIn utiliza Deep Learning?

¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?

¿Es posible utilizar el aprendizaje automático en la votación para que podamos incluir las razones de los votantes en lugar de sí / no?

¿Qué puedo hacer para mejorar el proceso de clasificación con Weka o NLTK?

¿Cuáles son algunos problemas no resueltos en el procesamiento del lenguaje natural?