Mientras participo en la investigación industrial de modelar datos categóricos de alta cardinalidad, no puedo compartir los detalles de una solución robusta debido a algunos trajes negros de miedo y su aburrida NDA.
¡Pero el tuyo está lejos de la alta cardinalidad! Así que aquí están mis dos peniques:
- ¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?
- ¿Qué recursos de tutoría están disponibles para que un ingeniero aprenda Machine Learning en Quora?
- ¿Qué significa realmente el valor semilla en el algoritmo de aprendizaje automático?
- Quiero extraer acciones del texto y la entidad que actuó y sobre la que se actúa. Cómo proceder ?
- Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación
Representar cada categoría dentro de un grupo con un vector de tamaño de todas las opciones posibles, las que representan si se seleccionan, parece razonable. si elige que su función de costo sea la función de clasificación, la propagación inversa del error vuelve a alinear los parámetros de peso / modelo a los valores deseados con respecto a su clasificación original.
Si esto es estacionario, ya está; de lo contrario, ignora el costo de volver a entrenar el modelo o se contacta conmigo en privado para analizar métodos no estacionarios para una estimación eficiente de parámetros en línea para datos categóricos en condiciones no estacionarias.
Espero eso ayude.