¿Los algoritmos de aprendizaje profundo representan métodos basados en conjuntos?

Hay un documento sobre Redes residuales profundas llamado: Las redes residuales son conjuntos exponenciales de redes relativamente superficiales que puede encontrar aquí:

[1605.06431] Las redes residuales son conjuntos exponenciales de redes relativamente poco profundas

Y aquí está el resumen:

Cómo multiplicar elementos de matriz sin usar bucle
¿Aproximadamente cuánto más rápido es el GCD binario que el algoritmo euclidiano para la aritmética de precisión fija en las computadoras actuales?
Además del algoritmo de tallado de costura, ¿qué otros algoritmos se pueden usar para Image Resizer?
Cómo eliminar duplicados en un vector C ++ y también si solo quiero elementos duplicados
Cómo construir robots enjambre

En este trabajo, presentamos una interpretación novedosa de redes residuales que muestran que son conjuntos exponenciales. Esta observación está respaldada por un estudio de lesiones a gran escala que demuestra que se comportan como conjuntos en el momento de la prueba. Posteriormente, realizamos un análisis que muestra que estos conjuntos consisten principalmente en redes que son relativamente poco profundas. Por ejemplo, contrariamente a nuestras expectativas, la mayor parte del gradiente en una red residual con 110 capas proviene de un conjunto de redes muy cortas, es decir, solo 10-34 capas de profundidad. Esto sugiere que, además de describir las redes neuronales en términos de ancho y profundidad, hay una tercera dimensión: la multiplicidad, el tamaño del conjunto implícito. En última instancia, las redes residuales no resuelven el problema del gradiente que desaparece al preservar el flujo del gradiente en toda la profundidad de la red, sino que evitan el problema simplemente al unir muchas redes cortas. Esta idea revela que la profundidad sigue siendo una pregunta de investigación abierta e invita a explorar la noción relacionada de multiplicidad.

Compruébelo y tal vez le dará más información sobre su pregunta.

¿Qué algoritmo de consenso de blockchain podría utilizar para crear una base de datos descentralizada de resultados de partidos de fútbol?

¿Qué algoritmo usa Matlab para calcular las raíces de un polinomio de alto rango?

No sé nada sobre algoritmos. Por donde puedo empezar

Dado un componente fuertemente conectado, ¿puede determinar en tiempo lineal si la eliminación de un solo nodo convierte el SCC en un gráfico acíclico dirigido?

¿Puedo escribir sobre mi propio algoritmo de clasificación en CV?

¿En qué punto una gran notación O de velocidad de aumento más rápida ignora una notación O grande de velocidad de aumento más lenta?

Algún día podríamos llegar a la prueba de que las Redes Neuronales son esencialmente conjuntos de alguna manera (por ejemplo, Resnet, la arquitectura de la cadera de la red hoy en día, es un conjunto de redes simples), pero la intuición es muy diferente del conjunto de modelos. Entonces pienso que NO.

La mejor manera de pensar en las redes neuronales es el aprendizaje múltiple jerárquico (supervisado / no supervisado). Piense en lo que obtendría si tomara PCA de datos (llámelo PCA1) y luego tome PCA de PCA1 (llámelo PCA2) y así sucesivamente … esto es lo que podemos llamar una variedad jerárquica . Ahora, si puede tener un PCA más inteligente (que está capacitado para optimizar la pérdida de clasificación) en varias capas, eso es lo que son sus redes neuronales.

Colleen Farrelly

Algunas buenas respuestas aquí. Agregando mis 2 centavos, ciertas técnicas en el aprendizaje profundo pueden verse como métodos de conjunto. Un ejemplo es la capa de abandono.

Puede leer más sobre esto en https://www.cs.toronto.edu/~hint… .

Una pregunta de quora relacionada también.

¿Cómo funciona el método de abandono en el aprendizaje profundo? ¿Y por qué se afirma que es un truco efectivo para mejorar su red?

Colleen Farrelly

No tradicionalmente, o al menos, la forma en que normalmente creamos conjuntos hoy. Hay algunas propiedades teóricas interesantes que pueden vincular los métodos de conjunto y el aprendizaje profundo (consulte el documento asociado aquí: https://www.slideshare.net/Colle …). Mi intuición dice que están relacionados, particularmente los superaprendices y los mapeos aleatorios en máquinas de aprendizaje extremo y redes neuronales de proyección aleatoria. Sin embargo, todavía no he visto mucho trabajo teórico sobre esto.

Wojtek Rosinski

En realidad no, a menos que uses una colección de redes profundas. Una única red profunda aprende una sola función de mapeo de entrada-salida. Para el aprendizaje en conjunto, deberíamos tener múltiples modelos que representen múltiples funciones de mapeo de entrada-salida, y una estrategia para combinar de alguna manera la salida para producir una sola salida.

Vineeth Veetil

More Interesting

¿Cuál es la forma más eficiente de implementar la unión en varias tablas (> 5 tablas) usando SQL / ANSI SQL?

¿Qué es el hashing perfecto?

¿Cuál es el algoritmo correcto para realizar la diferenciación usando un programa de computadora para cualquier función ingresada por el usuario?

¿Cuáles son algunos algoritmos de búsqueda rápida de similitud y estructuras de datos para vectores de alta dimensión?

Cómo crear un algoritmo que comprima el código binario

¿Qué tipo de algoritmos de reconocimiento de imagen existen?

¿Qué es la complejidad del algoritmo?

¿Puedo aprender algoritmos en mis vacaciones de verano si doy 8-10 horas cada día?

Cómo resolver la recursividad cuando no tienen caminos claros

¿Podemos resolver este problema SPOJ.com - Problema PT07Z de esta manera?