Si una red de alimentación directa de una sola capa es capaz de aproximarse a cualquier grado de precisión, ¿por qué es exitoso el aprendizaje profundo?

Deep Learning no es ningún algoritmo. Es una arquitectura que se centra en la jerarquía. La red neuronal convolucional (CNN) es uno de esos algoritmos y me limitaré a ello. Bueno, intentaré que sea simple.

Lo que mencionó acerca de ser aproximadores universales es cierto, pero hay una gran trampa en eso.

1) Se convierte en un buen aproximador con una precisión razonable si ha realizado un trabajo bastante bueno en el paso de extracción de características (especialmente en el reconocimiento de imágenes). Esto hace que este conjunto de datos sea específico. Una red que funciona bien en un conjunto de datos podría no funcionar en otro conjunto de datos (aunque ambos son conjuntos de problemas similares).

2) Lo mejor de CNN es que no hay necesidad de extracción de características . El sistema aprende a realizar la extracción de características, lo cual es una gran esperanza teniendo en cuenta que puede ser completamente automatizado. El concepto central de CNN es que utiliza una convolución de imagen y filtros para generar características invariables que se pasan a la siguiente capa. Las características en la siguiente capa están enrevesadas con diferentes filtros para generar características más invariantes y abstractas y el proceso continúa hasta que obtenemos la característica / salida final (digamos la cara de X) que es invariante para las oclusiones.

3) Podemos descubrir qué está implementando cada capa (como la capa inferior haciendo detección de bordes, la siguiente capa haciendo reconocimiento de textura, etc.) a diferencia de la red neuronal artificial cuyas capas no significaban nada más que una entidad computacional. A medida que cada capa realiza un cálculo más abstracto y humano, la red se puede reutilizar . (Esta es ciertamente mi idea, no hay fuentes al respecto).

Como estoy en la fase de ” estudiar literatura “, no puedo darte una diferencia más detallada. Empezaré a trabajar en él muy pronto y volveré a tu pregunta.

Fuentes:

  • Redes de convección: una perspectiva modular
  • Página en codeproject.com
  • Aprendizaje profundo

Una sola red de alimentación de capa oculta es TEÓRICAMENTE capaz de aproximar cualquier función, pero eso no significa que pueda hacerlo de manera eficiente.

La gente ha descubierto que para muchos problemas, es mucho más eficiente desde el punto de vista computacional usar redes más profundas con menos nodos en cada capa.

Intuitivamente, el uso de redes más profundas permite compartir resultados intermedios. Por ejemplo, si tiene un conjunto de datos con 4 variables – (x0, x1, x2, x3), y resultó que solo las diferencias entre las variables son importantes, y la clasificación / regresión es una función bastante compleja de las diferencias .

Si usa una red profunda, la primera capa será entrenada para calcular las diferencias, y las capas posteriores hacen la clasificación / regresión usando las diferencias.

Eso es mucho más eficiente en neuronas que usar una gran cantidad de neuronas en una sola capa para aproximar la función directamente. Necesitará una red mucho más grande para obtener el mismo rendimiento.

El teorema de aproximación universal es algo engañoso. Si echa un vistazo a las pruebas, todas ellas están utilizando el teorema del teorema de Stone-Weierstrass. En particular, para MLP (y otras arquitecturas ANN; Bayesian ARTMAP para regresión – conector descarado o RBF) asegura que la arquitectura de la red sea capaz de proporcionar buenas aproximaciones.

Ninguna de estas pruebas discute el algoritmo de aprendizaje en sí; obviamente, el algoritmo es al menos tan importante como la arquitectura en sí misma, y ​​por lo tanto invocar el teorema de SW significa que solo la mitad del trabajo está hecho, en mi humilde opinión.

En realidad, puede crear algunas funciones que pueden ser replicadas por redes neuronales de profundidad lineal (en algún parámetro) pero que necesitarían una red de una sola capa de ancho exponencial (en ese mismo parámetro) para estar bien aproximadas.

Puede verificar, por ejemplo, el resultado de los beneficios de representación de Telgarsky [1509.08101] de Deep Feedforward Networks.

Por lo tanto, al usar redes más profundas, necesita muchos menos pesos para calcular.

Mira las redes convolucionales. Antes de alimentar realmente la entrada a una red de avance de una sola capa, extrae varios tipos de características de manera jerárquica utilizando metodologías de aprendizaje profundo. Ahí es donde se manifiestan las ventajas del aprendizaje profundo.

Además, mire los codificadores automáticos y los RBM