¿Qué tan ‘eficiente’ es agregar interacciones tensoriales en una red neuronal, en lugar de profundizar la red pero usando transformaciones afines más simples?

Las transformaciones afines mantienen las cosas realmente simples en redes neuronales profundas. Es un tipo de acuerdo de Occam’s Razor que ha funcionado bastante bien, manteniendo el número de parámetros bajos para evitar un ajuste excesivo de los datos de entrenamiento.

Por otro lado, usar un tensor de orden [math] k [/ math] significa tener parámetros [math] O (n ^ k) [/ math] en su modelo que tiene que ajustar, lo que puede ser una pesadilla si El modelo es suficientemente profundo.

Hinton y Taylor han mostrado una solución bastante clara para agregar una complejidad similar a un tensor a una red mediante el uso de interacciones multiplicativas entre matrices de pesos para emular un tensor de tercer orden [math] u_ {ijk} [/ math]:

[matemáticas] u_ {ijk} = W_ {ij} W_ {jk} W_ {ik} [/ matemáticas]

En lugar de escalar cúbicamente con [math] u_ {ijk} [/ math], el número de parámetros en el modelo ahora escala [math] O (3n ^ 2) [/ math].