¿Cuál es la diferencia entre aplicar la descomposición del tren Tensor y agregar más capas a la red donde cada una tiene un tamaño reducido?

Tengo que decir que estos dos no tienen mucho que ver el uno con el otro.

Creo que es útil separar dos conceptos: la arquitectura de la red neuronal y la parametrización de la red neuronal. Yo diría que la descomposición del Tensor-Tren (TT) se trata de la parametrización, mientras que es un problema de arquitectura determinar la cantidad de neuronas en cada capa y cuántas capas en total.

En primer lugar, deberíamos discutir un poco sobre qué significa aplicar una descomposición TT a una red neuronal. Antes de eso, explico brevemente qué es la descomposición TT. Uno puede pensar en la descomposición Tensor-Tren como una aplicación consecutiva de la descomposición SVD en un tensor de alto rango. Como sabemos que SVD puede usarse para extraer el componente importante en la matriz, como PCA, uno puede usar menos parámetros para representar la matriz completa. TT tiene las mismas propiedades. Un tensor exponencial grande puede expresarse en formato TT mediante parámetros en un orden polinómico, bajo algunas condiciones.

Hay un hecho importante de la red neuronal de que hay mucha redundancia en la parametrización, especialmente en la capa completamente conectada. Alexander Novikov y col. Proponer la idea. Utilizan TT como herramienta para comprimir la red neuronal sin perder la precisión. Por lo tanto, es una forma eficiente de representar una gran red neuronal con menos parámetros. Por supuesto, hay otra forma de representar la red neuronal de manera eficiente. Como resultado, uno puede colocar una red neuronal grande en su dispositivo móvil, que es su otro documento el año pasado, o para aumentar el límite de tamaño de la red neuronal, que aún no se ha explorado.

Sin embargo, es una pregunta interesante, o tal vez esta sea su pregunta original, ¿cuál es la diferencia entre usar 1000 parámetros para parametrizar una matriz de peso grande en un formato disperso, por ejemplo, formato TT, y una matriz de peso pequeña en un formato denso . No conozco una forma teórica de justificar, pero creo que la primera es mejor. Creo que es algo así como que siempre debemos elegir un modelo demasiado poderoso y regularizarlo al final, luego elegir un modelo más simple que no puede aprender nada.

Uno puede pensar en TT como la regularización impuesta en la red neuronal y al mismo tiempo tener el beneficio de la compresión. Por lo tanto, no es lo mismo que usar una capa de menor tamaño densamente parametrizada.

More Interesting

Cómo configurar datos de entrenamiento para una red neuronal para generar valores de joystick basados ​​en una entrada de imagen

¿Existen métodos de aprendizaje automático además de los que requieren redes neuronales?

¿Cómo podemos usar la cadena de Monte Carlo Markov y bayesiano no paramétrico para la reducción de dimensionalidad?

En la optimización matemática, ¿por qué alguien usaría el descenso de gradiente para una función convexa? ¿Por qué no encontrarían simplemente la derivada de esta función y buscarían el mínimo de la manera tradicional?

¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?

¿Cuántas clases diferentes podemos tener prácticamente dentro de un conjunto de entrenamiento, mientras usamos el algoritmo KNN?

¿Cuáles son las próximas competencias de Kaggle?

¿Cómo analizan los algoritmos de aprendizaje automático y los algoritmos basados ​​en léxico las palabras coloquiales en un análisis de sentimientos de Twitter?

Al aplicar redes neuronales para la clasificación binaria, ¿hay algún beneficio para el conjunto de entrenamiento que tiene un número igual de 0 y 1?

¿Por qué utilizamos el CDF de distribución logística para calcular las probabilidades en la regresión logística?

¿Se puede extraer información significativa de un sistema caótico utilizando una red neuronal?

¿Cuáles son las principales diferencias entre los MOOC de aprendizaje automático de Caltech y Stanford?

¿Qué hace el -1 en la siguiente línea del código TensorFlow x_image = tf.reshape (x, [-1,28,28,1])?

¿Cuál es el mapa de ruta para un chico universitario para una carrera de aprendizaje automático y competir en Kaggle?

¿Cuáles son los mejores métodos para el reconocimiento robusto de caracteres en MATLAB u OPENCV?