¿Qué tan ‘eficiente’ es agregar interacciones tensoriales en una red neuronal, en lugar de profundizar la red pero usando transformaciones afines más simples?

Las transformaciones afines mantienen las cosas realmente simples en redes neuronales profundas. Es un tipo de acuerdo de Occam’s Razor que ha funcionado bastante bien, manteniendo el número de parámetros bajos para evitar un ajuste excesivo de los datos de entrenamiento.

Por otro lado, usar un tensor de orden [math] k [/ math] significa tener parámetros [math] O (n ^ k) [/ math] en su modelo que tiene que ajustar, lo que puede ser una pesadilla si El modelo es suficientemente profundo.

Hinton y Taylor han mostrado una solución bastante clara para agregar una complejidad similar a un tensor a una red mediante el uso de interacciones multiplicativas entre matrices de pesos para emular un tensor de tercer orden [math] u_ {ijk} [/ math]:

[matemáticas] u_ {ijk} = W_ {ij} W_ {jk} W_ {ik} [/ matemáticas]

En lugar de escalar cúbicamente con [math] u_ {ijk} [/ math], el número de parámetros en el modelo ahora escala [math] O (3n ^ 2) [/ math].

Cómo conectar un chatbot (construido en BotFramework o api.ai) a un servicio web en AWS

¿Cuál de estos cambiará nuestras vidas para siempre? Blockchain, AI, IOT o VR?

¿Cómo está cambiando la inteligencia artificial internet?

Si las redes neuronales artificiales se rediseñaran desde cero basándose en nuestro conocimiento actual del cerebro humano, ¿cuáles serían las diferencias importantes?

¿En qué se diferencia el patrón de papel GATE de IISc Bangalore de los IIT para la rama de informática?

¿Cómo es usar la nueva plataforma de aprendizaje automático de Amazon?

More Interesting

¿La IA será una amenaza para la humanidad mucho antes de lo previsto?

Como ingeniero de software experimentado, ¿en qué área (IA, big data, aprendizaje automático, aprendizaje profundo o recuperación de información) debería centrarme en mi futura carrera?

¿Cómo define "inteligencia" en el contexto de la inteligencia artificial?