Por lo general, las capas de convolución con activaciones de ReLU se utilizan para muchas ventajas, incluida la reducción de la salida distinta de cero. Además, como discutió Zeeshan Zia, si las capas de convolución sucesivas están conectadas sin ninguna activación no lineal intermedia, todas las capas convolucionales colapsarán en una sola transformación lineal y http://arxiv.org/pdf/1606.02228.pdf muestra la importancia de la función de activación en la imagen tarea de clasificación en ImageNet.
Convolution Neural Network tiene las siguientes cuatro propiedades:
- Conexión local
- Compartir pesas
- Submuestreo / Agrupación
- Muchas capas
Aunque la convolución con la conexión local y el intercambio de pesos crean una transformación lineal, la capa de Submuestreo / agrupación tiene su propia no linealidad. También se utilizan muchas técnicas de regularización como la deserción, la normalización por lotes, que no tiene linealidad.
- ¿Tiene sentido emplear Bayes ingenuos multinomiales con n-gramos? Pregunto porque supone que cada posición está ocupada por un término, por lo que los n-gramos no parecen encajar naturalmente en el modelo.
- Cómo comenzar a implementar un sistema de recomendación para juegos
- ¿Qué es el Autoencoder Adversarial?
- ¿Es esencial un Msc / PHD en Machine Learning para comenzar una carrera o hacer investigación? ¿Algún consejo?
- ¿Se puede utilizar el aprendizaje no supervisado en el reconocimiento de imágenes?
Pero lo más importante, los trabajos recientes en Synthetic Gradients pueden eliminar muchos de los conceptos establecidos de aprendizaje profundo, incluido el requisito de no linealidad como función de activación. El documento ha discutido sobre tres bloqueos y solo se eliminó el bloqueo de actualizaciones de:
(i) Bloqueo directo: ningún módulo puede procesar sus datos entrantes antes de que se hayan ejecutado los nodos anteriores en el gráfico directo dirigido;
(ii) Bloqueo de actualización: ningún módulo puede actualizarse antes de que todos los módulos dependientes se hayan ejecutado en modo de reenvío; Además, en muchos algoritmos de asignación de crédito (incluida la retropropagación) tenemos.
(iii) Bloqueo hacia atrás: ningún módulo puede actualizarse antes de que todos los módulos dependientes se hayan ejecutado tanto en modo hacia adelante como hacia atrás.
El diseño adecuado de la función de activación sintética puede eliminar otros dos bloqueos.