¿Cómo debo manejar muchas variables categóricas en la capa de entrada de la red neuronal recurrente?

O puede promediar (o simplemente sumar) los vectores para formar un solo vector del mismo tamaño. Por cierto, ¿sus datos son realmente de naturaleza secuencial?

Puede concatenar siempre que después de la concatenación, el vector resultante sea siempre el mismo para todos los ejemplos. La concatenación puede beneficiarlo si sus variables categóricas ocurren en un orden particular. Tenga en cuenta que en cada paso de tiempo si concatena diferente no. de variables, su tamaño de entrada será diferente para cada paso de tiempo.

De lo contrario, agregar los vectores respectivos puede ayudar a restringir el tamaño de la entrada y seguirá siendo el mismo sin importar cuántas variables agregue, siempre que no le importe el orden de las variables (por ejemplo, var1 antes de var2 es igual que el viceversa).

Una pequeña revelación sobre su problema también me ayudará a preguntarme cuál puede ser un mejor enfoque.

Related Content

¿Qué tipos de algoritmos de aprendizaje automático son buenos para aprender representación? ¿Es solo aprendizaje profundo?

¿Por qué el aprendizaje automático y la inteligencia artificial se han convertido en sinónimos de visión artificial?

¿Cómo es ser un estudiante de Informática + Lingüística en UIUC?

¿Cuál es la comparación entre SVM y otros algoritmos de redes neuronales?

En las redes neuronales, ¿cómo se transporta la propagación hacia atrás a través de las capas softmax? ¿Puedes explicar su derivada (matriz jacobiana)?

¿Dónde ves drones en un futuro militar? ¿Qué roles ve que cumplirán en los próximos 50 años con los desarrollos en las redes neuronales?

¿Cómo está transformando la inteligencia artificial la profesión jurídica?

Esto parece similar al problema tratado por los problemas de PNL, por ejemplo, el tratamiento de palabras, que esencialmente se pueden ver como variables categóricas (la representación simbólica de las palabras no tiene significado por sí misma).

La forma más sencilla de hacer esto es codificar cada palabra con una codificación denominada “one-hot”, es decir, asignarle un vector que sea 1 en un índice (correspondiente a un índice fijo asignado a esta palabra) y 0 en otro lugar. Esta representación distribuida puede manejarse bien mediante marcos de aprendizaje profundo modernos, incluso si la longitud del vector de entrada es del orden de decenas de miles, lo cual es típico de las palabras comunes de un idioma hablado.

Chong Wang

More Interesting

¿Podrían la IA y los robots reemplazar la necesidad de policías, bomberos, etc. en el futuro?

¿Crees que llegará un día en que las máquinas de IA tengan sensibilidad? ¿Crees que esas máquinas deberían tener derechos si sucediera?

¿Cómo es la investigación de Inteligencia Artificial en la industria diferente a la de la academia?

¿Puede la inteligencia artificial mejorar la compresión de datos?

¿Confiaremos en los robots?

Al entrenar una red neuronal, ¿tengo que entrenar a la red con la salida correcta para cada entrada posible?

¿Por qué las personas trabajan lentamente para desarrollar una IA que pueda resolver problemas matemáticos súper difíciles?

¿El papel de un gerente de producto en una empresa de TI es reemplazable por IA o algo similar en el futuro previsible?

¿Cuál es la cultura de ibm?

Cómo crear una aplicación de red neuronal independiente

¿Qué avances deben ocurrir en ingeniería para permitir robots humanoides avanzados? ¿Cuándo ocurrirán esos avances?

¿Sientes que los humanos son más evidentes; seres mecánicos computarizados robóticos altamente avanzados?

Cómo aprender inteligencia artificial completando proyectos

¿Es mejor quedarse con el aprendizaje automático o pasar al aprendizaje profundo?

¿Los modelos no paramétricos bayesianos funcionan bien en la práctica?

Web Analytics