¿Cuál es la diferencia entre aplicar la descomposición del tren Tensor y agregar más capas a la red donde cada una tiene un tamaño reducido? La tecnología cambia la vida futura

¿Cuál es la diferencia entre aplicar la descomposición del tren Tensor y agregar más capas a la red donde cada una tiene un tamaño reducido?

Tengo que decir que estos dos no tienen mucho que ver el uno con el otro.

Creo que es útil separar dos conceptos: la arquitectura de la red neuronal y la parametrización de la red neuronal. Yo diría que la descomposición del Tensor-Tren (TT) se trata de la parametrización, mientras que es un problema de arquitectura determinar la cantidad de neuronas en cada capa y cuántas capas en total.

En primer lugar, deberíamos discutir un poco sobre qué significa aplicar una descomposición TT a una red neuronal. Antes de eso, explico brevemente qué es la descomposición TT. Uno puede pensar en la descomposición Tensor-Tren como una aplicación consecutiva de la descomposición SVD en un tensor de alto rango. Como sabemos que SVD puede usarse para extraer el componente importante en la matriz, como PCA, uno puede usar menos parámetros para representar la matriz completa. TT tiene las mismas propiedades. Un tensor exponencial grande puede expresarse en formato TT mediante parámetros en un orden polinómico, bajo algunas condiciones.

Hay un hecho importante de la red neuronal de que hay mucha redundancia en la parametrización, especialmente en la capa completamente conectada. Alexander Novikov y col. Proponer la idea. Utilizan TT como herramienta para comprimir la red neuronal sin perder la precisión. Por lo tanto, es una forma eficiente de representar una gran red neuronal con menos parámetros. Por supuesto, hay otra forma de representar la red neuronal de manera eficiente. Como resultado, uno puede colocar una red neuronal grande en su dispositivo móvil, que es su otro documento el año pasado, o para aumentar el límite de tamaño de la red neuronal, que aún no se ha explorado.

Sin embargo, es una pregunta interesante, o tal vez esta sea su pregunta original, ¿cuál es la diferencia entre usar 1000 parámetros para parametrizar una matriz de peso grande en un formato disperso, por ejemplo, formato TT, y una matriz de peso pequeña en un formato denso . No conozco una forma teórica de justificar, pero creo que la primera es mejor. Creo que es algo así como que siempre debemos elegir un modelo demasiado poderoso y regularizarlo al final, luego elegir un modelo más simple que no puede aprender nada.

Uno puede pensar en TT como la regularización impuesta en la red neuronal y al mismo tiempo tener el beneficio de la compresión. Por lo tanto, no es lo mismo que usar una capa de menor tamaño densamente parametrizada.

Análisis deAprendizaje automáticoRedes neuronales artificiales