Las transformaciones afines mantienen las cosas realmente simples en redes neuronales profundas. Es un tipo de acuerdo de Occam’s Razor que ha funcionado bastante bien, manteniendo el número de parámetros bajos para evitar un ajuste excesivo de los datos de entrenamiento.
Por otro lado, usar un tensor de orden [math] k [/ math] significa tener parámetros [math] O (n ^ k) [/ math] en su modelo que tiene que ajustar, lo que puede ser una pesadilla si El modelo es suficientemente profundo.
Hinton y Taylor han mostrado una solución bastante clara para agregar una complejidad similar a un tensor a una red mediante el uso de interacciones multiplicativas entre matrices de pesos para emular un tensor de tercer orden [math] u_ {ijk} [/ math]:
- ¿Cómo podemos evitar el secuestro de IA de alto nivel por parte de delincuentes? ¿Cómo podrían usarlo contra el mundo?
- ¿Podría la IA en los videojuegos llegar a ser tan avanzada y consciente de sí misma que sería ilegal 'matarlos'?
- ¿Qué tipo de avances en hardware necesitan tener lugar para acercarnos a la Singularidad?
- ¿Qué tiene de malo las opiniones de Ray Kurzweil y Elon Musk sobre la IA?
- ¿Cuál es la diferencia entre un agente inteligente y un agente racional?
[matemáticas] u_ {ijk} = W_ {ij} W_ {jk} W_ {ik} [/ matemáticas]
En lugar de escalar cúbicamente con [math] u_ {ijk} [/ math], el número de parámetros en el modelo ahora escala [math] O (3n ^ 2) [/ math].