Si una red de alimentación directa de una sola capa es capaz de aproximarse a cualquier grado de precisión, ¿por qué es exitoso el aprendizaje profundo?

Deep Learning no es ningún algoritmo. Es una arquitectura que se centra en la jerarquía. La red neuronal convolucional (CNN) es uno de esos algoritmos y me limitaré a ello. Bueno, intentaré que sea simple.

Lo que mencionó acerca de ser aproximadores universales es cierto, pero hay una gran trampa en eso.

1) Se convierte en un buen aproximador con una precisión razonable si ha realizado un trabajo bastante bueno en el paso de extracción de características (especialmente en el reconocimiento de imágenes). Esto hace que este conjunto de datos sea específico. Una red que funciona bien en un conjunto de datos podría no funcionar en otro conjunto de datos (aunque ambos son conjuntos de problemas similares).

2) Lo mejor de CNN es que no hay necesidad de extracción de características . El sistema aprende a realizar la extracción de características, lo cual es una gran esperanza teniendo en cuenta que puede ser completamente automatizado. El concepto central de CNN es que utiliza una convolución de imagen y filtros para generar características invariables que se pasan a la siguiente capa. Las características en la siguiente capa están enrevesadas con diferentes filtros para generar características más invariantes y abstractas y el proceso continúa hasta que obtenemos la característica / salida final (digamos la cara de X) que es invariante para las oclusiones.

3) Podemos descubrir qué está implementando cada capa (como la capa inferior haciendo detección de bordes, la siguiente capa haciendo reconocimiento de textura, etc.) a diferencia de la red neuronal artificial cuyas capas no significaban nada más que una entidad computacional. A medida que cada capa realiza un cálculo más abstracto y humano, la red se puede reutilizar . (Esta es ciertamente mi idea, no hay fuentes al respecto).

Como estoy en la fase de ” estudiar literatura “, no puedo darte una diferencia más detallada. Empezaré a trabajar en él muy pronto y volveré a tu pregunta.

Fuentes:

Redes de convección: una perspectiva modular
Página en codeproject.com
Aprendizaje profundo

Related Content

¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?

Siendo un principiante, ¿dónde debería comenzar a aprender Machine Learning?

¿Cuántos tipos de técnicas utilizan los limpiadores profesionales?

¿Qué significa splines de regresión adaptativa múltiple (MARS) en términos simples?

Mientras aprende el aprendizaje profundo, ¿cuál es la mejor manera de pasar de una etapa de principiante a una etapa avanzada?

¿Cuáles son los diferentes métodos de reducción de dimensionalidad en estadística?

¿Google perdió 10 mil millones de dólares en el acuerdo de Motorola?

Una sola red de alimentación de capa oculta es TEÓRICAMENTE capaz de aproximar cualquier función, pero eso no significa que pueda hacerlo de manera eficiente.

La gente ha descubierto que para muchos problemas, es mucho más eficiente desde el punto de vista computacional usar redes más profundas con menos nodos en cada capa.

Intuitivamente, el uso de redes más profundas permite compartir resultados intermedios. Por ejemplo, si tiene un conjunto de datos con 4 variables – (x0, x1, x2, x3), y resultó que solo las diferencias entre las variables son importantes, y la clasificación / regresión es una función bastante compleja de las diferencias .

Si usa una red profunda, la primera capa será entrenada para calcular las diferencias, y las capas posteriores hacen la clasificación / regresión usando las diferencias.

Eso es mucho más eficiente en neuronas que usar una gran cantidad de neuronas en una sola capa para aproximar la función directamente. Necesitará una red mucho más grande para obtener el mismo rendimiento.

Abhishek Shivkumar

El teorema de aproximación universal es algo engañoso. Si echa un vistazo a las pruebas, todas ellas están utilizando el teorema del teorema de Stone-Weierstrass. En particular, para MLP (y otras arquitecturas ANN; Bayesian ARTMAP para regresión – conector descarado o RBF) asegura que la arquitectura de la red sea capaz de proporcionar buenas aproximaciones.

Ninguna de estas pruebas discute el algoritmo de aprendizaje en sí; obviamente, el algoritmo es al menos tan importante como la arquitectura en sí misma, y por lo tanto invocar el teorema de SW significa que solo la mitad del trabajo está hecho, en mi humilde opinión.

Lucian Sasu

En realidad, puede crear algunas funciones que pueden ser replicadas por redes neuronales de profundidad lineal (en algún parámetro) pero que necesitarían una red de una sola capa de ancho exponencial (en ese mismo parámetro) para estar bien aproximadas.

Puede verificar, por ejemplo, el resultado de los beneficios de representación de Telgarsky [1509.08101] de Deep Feedforward Networks.

Por lo tanto, al usar redes más profundas, necesita muchos menos pesos para calcular.

Abhishek Shivkumar

Mira las redes convolucionales. Antes de alimentar realmente la entrada a una red de avance de una sola capa, extrae varios tipos de características de manera jerárquica utilizando metodologías de aprendizaje profundo. Ahí es donde se manifiestan las ventajas del aprendizaje profundo.

Además, mire los codificadores automáticos y los RBM

Matthew Lai

More Interesting

¿Cuáles son las formas previas para el reconocimiento en visión artificial?

¿Debo usar un cursor o usar el paquete R directamente?

Cómo configurar una instancia de AWS GPU para aprender el aprendizaje automático

¿Qué es un modelo de mezcla de Bernoulli?

¿Cómo se puede usar Machine Learning para resolver el siguiente problema?

¿El aprendizaje automático es un subconjunto de la ciencia de datos?

¿Con qué frecuencia debe verificar el conjunto de validación durante el entrenamiento de la red neuronal en función de los ejemplos de entrenamiento (cada N ejemplos de entrenamiento)?

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

¿Por qué a la gente le gusta la red profunda con menos parámetros de aprendizaje incluso cuando el rendimiento de la prueba es peor que otros?

¿Qué es la optimización submodular?

¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

¿Cuál es un ejemplo de aplicación en el mundo real de los modelos de mezcla gaussiana?

¿Cuál es el algoritmo detrás de LinkedIn Pulse?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

¿Cuál es la diferencia clave entre backprop y backprop truncado a través del tiempo?

Web Analytics