¿Cómo debo manejar muchas variables categóricas en la capa de entrada de la red neuronal recurrente?

O puede promediar (o simplemente sumar) los vectores para formar un solo vector del mismo tamaño. Por cierto, ¿sus datos son realmente de naturaleza secuencial?

Puede concatenar siempre que después de la concatenación, el vector resultante sea siempre el mismo para todos los ejemplos. La concatenación puede beneficiarlo si sus variables categóricas ocurren en un orden particular. Tenga en cuenta que en cada paso de tiempo si concatena diferente no. de variables, su tamaño de entrada será diferente para cada paso de tiempo.

De lo contrario, agregar los vectores respectivos puede ayudar a restringir el tamaño de la entrada y seguirá siendo el mismo sin importar cuántas variables agregue, siempre que no le importe el orden de las variables (por ejemplo, var1 antes de var2 es igual que el viceversa).

Una pequeña revelación sobre su problema también me ayudará a preguntarme cuál puede ser un mejor enfoque.

Esto parece similar al problema tratado por los problemas de PNL, por ejemplo, el tratamiento de palabras, que esencialmente se pueden ver como variables categóricas (la representación simbólica de las palabras no tiene significado por sí misma).

La forma más sencilla de hacer esto es codificar cada palabra con una codificación denominada “one-hot”, es decir, asignarle un vector que sea 1 en un índice (correspondiente a un índice fijo asignado a esta palabra) y 0 en otro lugar. Esta representación distribuida puede manejarse bien mediante marcos de aprendizaje profundo modernos, incluso si la longitud del vector de entrada es del orden de decenas de miles, lo cual es típico de las palabras comunes de un idioma hablado.