¿Por qué se llama así el aprendizaje residual profundo?

Cuando He et al. comenzaron a analizar Redes Convolucionales Profundas, encontraron que, contrariamente, las redes más profundas no tienen menos errores. De hecho, el error fue mayor que las redes menos profundas a pesar de que las capas agregadas son funciones de identidad. Eso es extraño, ya que si todas las capas agregadas son capas de identidad, la red debería funcionar al menos tan bien como la red base. Este problema era diferente de los problemas de gradientes en desaparición que se han abordado eficazmente mediante la normalización por lotes.

Utilizando este comportamiento extraño como una guía, los autores decidieron entrenar una red para aprender el mapeo de características aprendiendo el residual y agregando el vector de características original. De esta manera, incluso si el residual fuera 0, la red simplemente aprendería el mapeo de identidad. El residual viene dado por H (x) = F (x) – x donde x es la imagen y F (x) es el mapeo que normalmente haría que la red aprendiera.

La gran idea era que si tomaba una red exitosa como AlexNet, VGG o GoogleNet y le agregaba innumerables capas más, ahora se le permite a la red aprender un mapeo de identidad básico en las capas posteriores para que pueda funcionar al menos bien como anuncio. esas redes Esta formulación residual lo permite.

El resultado es que ahora puede entrenar redes con más de 1000 capas y la profundidad adicional sirve para proporcionar un mejor rendimiento en las tareas de reconocimiento.

Related Content

¿Qué beneficios se obtienen al pensar mucho en los fundamentos de la Inteligencia Artificial?

¿Qué matemática se necesita para comprender la inteligencia general artificial?

¿Cómo es la regresión logística un caso especial de Markov Logic Networks?

¿Qué es un campo receptivo en una red neuronal convolucional?

¿Qué técnicas en el aprendizaje automático son útiles para modelar el comportamiento de un usuario solo a partir de sus hábitos para tomar decisiones inteligentes?

¿Cómo serán castigados los robots autoconscientes por sus crímenes?

¿Existe un puntaje general de ‘utilidad’ para el rendimiento de recuperación de información?

Porque Deep Learning significa tener una gran cantidad de capas apiladas, en términos de capas ocultas o propagación de capas de filtros, etc.

A lo que, nuevamente, debe agregar “partes” o “residuos”, en términos de indicios de “residuos” matemáticos de los filtros aprendidos anteriormente para dar cuenta de la propagación de la normalización gaussiana y la regresión de precisión para acentuar el diferencial que ocurre latero n.

Dado que la regresión es un factorial correlativo natural que se produce por el hecho de que se propaga el tiempo suficiente a través del tiempo continuo, el problema es que más tarde se reduce la retención de precisión, similar a la normalización gaussiana y la pérdida de la tasa de convergencia.

Como la convergencia significa que bajará, nuevamente.

Entonces, de nuevo, usted usa el aprendizaje residual (residuos, remanentes) para activar las funciones de la capa interna para “soportar”, el tándem matemático desde antes, para contrarrestar la idea de pérdida de precisión y la tasa de convergencia de la naturaleza matemática inherente en términos de pérdida contra el nivel de confianza al llegar al punto converegno.

De manera similar a la idea de cuando alcanzamos el punto de δ, tenemos que tener en cuenta el hecho de que más allá de ese punto, ya no tenemos certeza, ya que hemos superado nuestra estimación y nuestra estimación se ha inclinado hacia ese punto.

Similar al determinismo y la naturaleza determinista de las simulaciones de Monte Carlo y las máquinas de estado de Markov, que nuestro alcance es demasiado pequeño y pre-determinista en términos de su modelo.

Estamos buscando un ak nown, que sepamos, y cuando lo alcanzamos, el problema es que entramos en el campo de ese pozo, lo sobrepasamos.

Lo exageramos.

El tándem ya no se sostiene.

Hao Zhang

De acuerdo con Varun. Además, me gustaría hacer algunos comentarios sobre por qué ResNet funciona tan bien.

El aprendizaje residual tiene la forma de H (x) = x + F (x). El mayor beneficio de este formulario es durante la propagación inversa. Durante la propagación hacia atrás, el gradiente de la capa superior puede pasar directamente a la capa inferior. En contraste, el gradiente de capa superior debe pasar a través de la capa de peso para llegar a la capa inferior, lo que puede causar un gradiente de fuga o un problema de gradiente explosivo.

Si desea obtener más información sobre la estructura residual, le recomiendo que consulte este documento de seguimiento, que ha probado muchas variaciones diferentes de la red residual. Mostraron que el mapeo de identidad da el mejor resultado.

Él, Kaiming, et al. “Mapeos de identidad en redes residuales profundas”. ArXiv preprint arXiv: 1603.05027 (2016).

Hao Zhang

More Interesting

¿Qué harías si se te pidiera implementar AI en un sitio web o aplicación?

¿Ha construido el gobierno lugares secretos para que la civilización sobreviva si hubiera un desastre natural?

¿Cómo se programan las computadoras de ajedrez de modo que su nivel de dificultad sea configurable?

Cómo ser tan bueno como Ian Goodfellow en aprendizaje automático

¿Cuál es la aplicación más grande y más reciente de las redes neuronales?

¿Cuáles son las desventajas de usar la red neuronal residual?

¿La IA es crucial para 'blockchain'?

¿Hay ejemplos en los que se usa el aprendizaje profundo (ConvNets, etc.) en combinación con el aprendizaje automático clásico?

¿Qué sitios web usan inteligencia artificial?

¿El chatbot Tay de Microsoft le costó reputación de marca en aprendizaje automático e inteligencia artificial?

En las redes neuronales, ¿cómo se transporta la propagación hacia atrás a través de las capas softmax? ¿Puedes explicar su derivada (matriz jacobiana)?

¿Hay IA para aprender a leer los labios?

¿Por qué las personas trabajan lentamente para desarrollar una IA que pueda resolver problemas matemáticos súper difíciles?

¿Cómo se usan las simulaciones en la investigación de IA?

¿Qué opinas del debate entre Norvig y Chomsky sobre el futuro de la IA?

Web Analytics