¿Los algoritmos de aprendizaje profundo representan métodos basados ​​en conjuntos?

Hay un documento sobre Redes residuales profundas llamado: Las redes residuales son conjuntos exponenciales de redes relativamente superficiales que puede encontrar aquí:

[1605.06431] Las redes residuales son conjuntos exponenciales de redes relativamente poco profundas

Y aquí está el resumen:

En este trabajo, presentamos una interpretación novedosa de redes residuales que muestran que son conjuntos exponenciales. Esta observación está respaldada por un estudio de lesiones a gran escala que demuestra que se comportan como conjuntos en el momento de la prueba. Posteriormente, realizamos un análisis que muestra que estos conjuntos consisten principalmente en redes que son relativamente poco profundas. Por ejemplo, contrariamente a nuestras expectativas, la mayor parte del gradiente en una red residual con 110 capas proviene de un conjunto de redes muy cortas, es decir, solo 10-34 capas de profundidad. Esto sugiere que, además de describir las redes neuronales en términos de ancho y profundidad, hay una tercera dimensión: la multiplicidad, el tamaño del conjunto implícito. En última instancia, las redes residuales no resuelven el problema del gradiente que desaparece al preservar el flujo del gradiente en toda la profundidad de la red, sino que evitan el problema simplemente al unir muchas redes cortas. Esta idea revela que la profundidad sigue siendo una pregunta de investigación abierta e invita a explorar la noción relacionada de multiplicidad.

Compruébelo y tal vez le dará más información sobre su pregunta.

Algún día podríamos llegar a la prueba de que las Redes Neuronales son esencialmente conjuntos de alguna manera (por ejemplo, Resnet, la arquitectura de la cadera de la red hoy en día, es un conjunto de redes simples), pero la intuición es muy diferente del conjunto de modelos. Entonces pienso que NO.

La mejor manera de pensar en las redes neuronales es el aprendizaje múltiple jerárquico (supervisado / no supervisado). Piense en lo que obtendría si tomara PCA de datos (llámelo PCA1) y luego tome PCA de PCA1 (llámelo PCA2) y así sucesivamente … esto es lo que podemos llamar una variedad jerárquica . Ahora, si puede tener un PCA más inteligente (que está capacitado para optimizar la pérdida de clasificación) en varias capas, eso es lo que son sus redes neuronales.

Algunas buenas respuestas aquí. Agregando mis 2 centavos, ciertas técnicas en el aprendizaje profundo pueden verse como métodos de conjunto. Un ejemplo es la capa de abandono.

Puede leer más sobre esto en https://www.cs.toronto.edu/~hint… .

Una pregunta de quora relacionada también.

¿Cómo funciona el método de abandono en el aprendizaje profundo? ¿Y por qué se afirma que es un truco efectivo para mejorar su red?

No tradicionalmente, o al menos, la forma en que normalmente creamos conjuntos hoy. Hay algunas propiedades teóricas interesantes que pueden vincular los métodos de conjunto y el aprendizaje profundo (consulte el documento asociado aquí: https://www.slideshare.net/Colle …). Mi intuición dice que están relacionados, particularmente los superaprendices y los mapeos aleatorios en máquinas de aprendizaje extremo y redes neuronales de proyección aleatoria. Sin embargo, todavía no he visto mucho trabajo teórico sobre esto.

En realidad no, a menos que uses una colección de redes profundas. Una única red profunda aprende una sola función de mapeo de entrada-salida. Para el aprendizaje en conjunto, deberíamos tener múltiples modelos que representen múltiples funciones de mapeo de entrada-salida, y una estrategia para combinar de alguna manera la salida para producir una sola salida.