¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

Por lo general, las capas de convolución con activaciones de ReLU se utilizan para muchas ventajas, incluida la reducción de la salida distinta de cero. Además, como discutió Zeeshan Zia, si las capas de convolución sucesivas están conectadas sin ninguna activación no lineal intermedia, todas las capas convolucionales colapsarán en una sola transformación lineal y http://arxiv.org/pdf/1606.02228.pdf muestra la importancia de la función de activación en la imagen tarea de clasificación en ImageNet.

Convolution Neural Network tiene las siguientes cuatro propiedades:

  1. Conexión local
  2. Compartir pesas
  3. Submuestreo / Agrupación
  4. Muchas capas

Aunque la convolución con la conexión local y el intercambio de pesos crean una transformación lineal, la capa de Submuestreo / agrupación tiene su propia no linealidad. También se utilizan muchas técnicas de regularización como la deserción, la normalización por lotes, que no tiene linealidad.

Pero lo más importante, los trabajos recientes en Synthetic Gradients pueden eliminar muchos de los conceptos establecidos de aprendizaje profundo, incluido el requisito de no linealidad como función de activación. El documento ha discutido sobre tres bloqueos y solo se eliminó el bloqueo de actualizaciones de:

(i) Bloqueo directo: ningún módulo puede procesar sus datos entrantes antes de que se hayan ejecutado los nodos anteriores en el gráfico directo dirigido;

(ii) Bloqueo de actualización: ningún módulo puede actualizarse antes de que todos los módulos dependientes se hayan ejecutado en modo de reenvío; Además, en muchos algoritmos de asignación de crédito (incluida la retropropagación) tenemos.

(iii) Bloqueo hacia atrás: ningún módulo puede actualizarse antes de que todos los módulos dependientes se hayan ejecutado tanto en modo hacia adelante como hacia atrás.

El diseño adecuado de la función de activación sintética puede eliminar otros dos bloqueos.

Encadenar múltiples convoluciones juntas es lo mismo que tener una sola convolución.

Es decir, si * representa convolución, y A y B representan dos filtros convolucionales posteriores:

A * (B * x) = (A * B) * x = C * x

donde C = (A * B).

Por lo tanto, si tiene 10 capas convolucionales sin ninguna no linealidad en el medio, ¡la capacidad de aprendizaje de su red es la misma que con una sola capa convolucional! No puede aprender funciones más sofisticadas.

Por lo tanto, normalmente tendría una no linealidad entre dos capas convolucionales.

El siguiente artículo en realidad compara diferentes no linealidades (además de no tener ninguna no linealidad) para la tarea de clasificación de imágenes en ImageNet. En la Fig. 2, verá que se obtienen los peores resultados si no hay no linealidad: más del 8% de error de clasificación de top-1 peor que tener la función de activación ReLU de moda.

http://arxiv.org/pdf/1606.02228.pdf

Las funciones de activación son muy importantes no solo para introducir la no linealidad sino también para aplastar los valores de las operaciones de suma de los nodos de procesamiento. Por lo tanto, las funciones de activación se aplican después de cada operación de convolución antes de que se aplique otra operación de convolución.

Como mencionó Zeeshan Zia sin las propiedades no lineales de la función de activación, significa que todas las operaciones de convolución posteriores simplemente colapsarían en una sola operación de convolución.

También significa que toda la red no podría aprender características abstractas de alto nivel porque toda la red sería simplemente equivalente a una sola capa convolucional, el aprendizaje profundo (DL) depende de esas características de alto nivel para su éxito. Por lo tanto, es absolutamente importante que las funciones de activación no lineal se apliquen después de cada operación de convolución.

Espero que esto ayude.

Justo después de una capa de convolución.

Vea aquí para un ejemplo:

Observe cómo los bloques verdes son conv + relu.

Las funciones de activación no se utilizan en los pasos convolucionales. Entre las capas convolucionales, es probable que desee tener capas de agrupación máxima / mínima / promedio.

Las capas de activación solo deben usarse después de capas completamente conectadas en una CNN.

More Interesting

¿Cuál es la explicación de la causa de la explosión y desaparición del gradiente de red neuronal recurrente RNN?

¿Cómo funcionan los vectores de párrafo frente a codificadores automáticos variacionales?

¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?

¿Cómo deberíamos comenzar con los conceptos básicos del aprendizaje automático para construir un sistema de recomendación utilizando Python?

¿Es factible hacer una regresión logística en conjuntos de datos con miles de características sin usar una computadora de clúster? ¿Qué tal decenas de miles?

Para un problema de clasificación (dos clases), ¿es mejor usar dos salidas con softmax o una salida con entropía cruzada binaria?

¿Qué conocimientos de matemática / estadística y CS debo dominar (no matemático / stat / CS, pero graduado en ingeniería) para carrera / investigación en aprendizaje automático?

Ciencias de la computación: ¿Cuáles son los pros y los contras de utilizar el modelado de procesos gaussianos para la regresión?

¿McKinsey consideró el crecimiento del software de Machine Learning al predecir la escasez de habilidades analíticas en el documento técnico de Big Data?

¿Cuál es la diferencia entre la clasificación de vectores de soporte y la regresión? ¿Un regresor de vectores de soporte se comporta como una red neuronal por casualidad?

¿Qué empresas o agencias utilizan (d) Vader para el análisis de sentimientos?

¿Qué significa decir que las redes neuronales convolucionales comparten cálculos comunes a las regiones superpuestas?

¿Cuál es el mejor algoritmo para implementar un reconocimiento de voz robusto en entornos ruidosos?

Cómo leer esta arquitectura de red neuronal convolucional

¿Cuál es la diferencia entre una inferencia y una predicción?