¿Cuál es la importancia de las redes residuales profundas?

Las redes residuales son importantes porque (1) han demostrado un rendimiento superior en ImageNet y (2) han demostrado que puede crear capas extremadamente profundas de redes neuronales. El primer resultado es un indicador del valor del paso a través de elementos de red. El segundo resultado tiene ramificaciones también en redes recurrentes porque los RNN son implícitamente profundos.

La intuición detrás de las redes de Resdiaul es la siguiente. El primer concepto a entender es la noción de composición jerárquica en Deep Learning. Deep Learning logra una mayor expresibilidad a través de una jerarquía de capas. Por lo tanto, se supone que se crean abstracciones cada vez más altas por capa de la red. Entonces, por ejemplo, en una red neuronal de procesamiento de imágenes, en la parte inferior podemos tener una capa que reconoce líneas simples. Luego, en la siguiente capa reconocemos la composición de estas líneas y en las capas más altas comenzamos a reconocer características mucho más altas, como los ojos y la nariz.

El problema con la composición jerárquica estricta es que asumimos demasiado que cada capa solo necesita la información de la capa anterior o adyacente a ella. Sin embargo, quizás una capa necesita información no solo de la capa anterior, sino también de muchas otras capas sobre las que se apila. Para garantizar una pérdida mínima de información de cualquiera de las capas inferiores, agregamos enrutamiento de paso para que las capas reciban información más detallada en lugar de solo información abstracta.

Experimentalmente, varias capas de capas de red residuales parecen hacer el mismo tipo de reconocimiento de una sola capa de una capa más convencional. La intuición de por qué una red residual funciona mejor es que conserva la información a través de las capas. La intuición también es similar a la intuición de por qué ReLU funciona tan bien. En ReLU, a diferencia de las funciones de activación sigmoide y tanh, el régimen lineal conserva más información.

Aquí puede encontrar una comprensión más intuitiva del aprendizaje profundo: Patrones de diseño para la arquitectura de aprendizaje profundo

Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.

¿La normalización por lotes ayuda con las funciones de activación de ReLU?

¿Por qué aprendiste Machine Learning?

¿Cuáles son algunas historias de éxito para Dirichlet Process Clustering?

Cómo obtener líneas de regresión y encontrar coeficientes de correlación a partir de datos

¿Qué consejo le darías a los estudiantes de doctorado que comienzan su doctorado en aprendizaje automático?

El éxito de la red residual en el aprendizaje automático está exponiendo la falla más importante de nuestro sistema educativo:

La mayoría de los estudiantes pierde interés antes de llegar al grado 10, ya que no pueden saltarse parte de la materia, donde no tienen ningún interés.
El interés lo es todo, que es la única fuerza impulsora para crearlos como aprendices de por vida. Otros asuntos escritos al final de mi respuesta pueden superarse por interés.

Red residual

La filosofía del aprendizaje residual profundo puede explicarse en tres puntos de vista diferentes:

Eliminar el problema de degradación de la red profunda a través del aprendizaje residual (papel).
Las redes residuales son conjuntos exponenciales de redes relativamente poco profundas.
Aprende si puedes, de lo contrario pasa fácilmente.

Sistema educativo residual

Al igual que la red residual crea capas de red extremadamente profundas, el sistema educativo residual creará aprendices de por vida. Además de eso, la sociedad estará representada por una base de conocimiento mucho más profunda. Entonces, el sistema educativo residual puede verse desde dos puntos de vista diferentes:

Visión centrada en toda la red / sociedad y su éxito
Vista centrada en la unidad individual o que se puede aprender y su éxito

Otras razones para la falla del sistema educativo :

Inadecuada escuela, colegio, universidad
Escasez de buen profesor, profesor, profesor.
Aprendizaje de memoria sin objetivos y pruebas estandarizadas
Falta de diversidad en el tema, expectativa del mentor / padres / sociedad
Otros factores sociales / financieros heredados: reserva, cuota de gestión

Marat Zaynutdinoff

Es muy importante para las tareas de comprensión de imágenes. Puede ayudar a tareas como clasificación de imágenes, subtítulos de imágenes, segmentación semántica y otras. Esta técnica se utilizó para ganar el desafío Imagenet del año pasado. Las técnicas de conexiones residuales permiten que las redes neuronales profundas sean mucho más profundas que antes y, como hemos notado en los últimos 4 años, cuanto más profunda sea la red, mejor será su rendimiento. Antes de la técnica residual, las redes muy profundas (100–1000 capas) no podían converger durante el entrenamiento.

Ahora también hay algunos otros métodos competitivos que también nos permiten entrenar redes muy profundas. Un artículo que me viene a la mente es el siguiente:

Mejora de la eficiencia de CNN con grupos de filtros jerárquicos

Rich Ross

Hacen mucho más fácil entrenar modelos realmente profundos. También son una forma realmente fácil de implementar para obtener un gran rendimiento en ImageNet y en muchos otros conjuntos de datos de reconocimiento de objetos.

Marat Zaynutdinoff

More Interesting

¿Es posible aplicar las técnicas de N-gram para el análisis de sentimientos?

¿Por qué es tan difícil automatizar la inferencia variacional?

¿Qué es una explicación intuitiva de la convolución 1 × 1 en ConvNets?

¿Cuál es la diferencia entre el aprendizaje automático, el procesamiento del lenguaje natural, el aprendizaje profundo y la visión por computadora?

¿Qué motor de recomendación / personalización estándar ofrece recomendaciones utilizando tanto el aprendizaje automático como la entrada manual?

¿Cuáles son algunos ejemplos de código de modelos de aprendizaje automático humanos en el circuito? Me ha resultado difícil encontrar tutoriales / documentos que discutan este tema.

¿El aprendizaje automático no supervisado basado en la agrupación de datos también determina automáticamente la cantidad de agrupaciones?

¿Existe una relación entre el aprendizaje automático y los procesos estocásticos?

¿Cuál es la diferencia entre lógica difusa y aprendizaje automático?

¿Qué es AdaBoost?