En Keras, ¿para qué se usan las capas de fusión?

Si tiene diferentes entradas que pasan por diferentes transformaciones y luego se usan juntas para producir una sola salida, aquí es donde necesita fusionar la capa. Por ejemplo, la operación concat juega un papel crucial en los LSTM.

Digamos que está prediciendo algo de un video y la transmisión de audio también está activa. Poner dos señales juntas en una entrada no es práctico por muchas razones, comenzando con la cuestión del tiempo de entrenamiento que lleva meses debido a datos muy ruidosos.

Una solución obvia sería propagar gradientes a través de diferentes subredes, calculando la parte de “toma de decisiones” en las capas después de la fusión. De esta manera, tendrá actualizaciones separadas para audio y video.

Este ejemplo es un poco artificial, pero entiendes la idea. A veces también es útil para cosas más sofisticadas, como calcular un producto de probabilidades de puntos y valores pronosticados para acciones de aprendizaje de refuerzo, calcular el valor general para un estado dado.

Puede obtener una mejor comprensión de ellos escribiendo una pequeña red que tome dos entradas: una es una imagen de un dígito escrito a mano y otra de una palabra incrustada que denota la operación (como “cuadrado” o “factorial”) y calcula la respuesta. Estas entradas tienen una naturaleza diferente y no juegan demasiado bien cuando se mezclan desde el principio.