Sí. Es común y yo mismo he usado Regresión logística para manejar Cientos de miles de características varias veces.
Creo que una gran cantidad de características pueden surgir de 3 escenarios:
- cuando los datos no están estructurados (por ejemplo, imágenes, videos, bolsa de palabras)
- Variable categórica cardinal alta (por ejemplo, nombres de ciudades, nombres de productos)
- Gran cantidad de expansiones correlacionadas (transformación + polinomios)
Si su caso es 1), es posible que también desee considerar otros algoritmos como Deep Learning.
- ¿Son los modelos de aprendizaje profundo / redes neuronales siempre superiores en las tareas de PNL?
- ¿Qué tan útil es la regresión del proceso gaussiano? ¿Tienes un buen ejemplo?
- ¿Los LSTM tienen significativamente más parámetros que los RNN estándar?
- Cómo planear mover mi carrera hacia el aprendizaje automático en India
- ¿Por qué TF (frecuencia de término) a veces da mejores puntuaciones F que TF-IDF para la clasificación de texto?
Si su caso es 2), podría acelerar aún más las cosas aprovechando la Sparsity inherente, es decir, una ciudad puede tener solo 1 nombre a la vez. Por ejemplo, evite usar 1-hot y use en su lugar truco de Hashing de características o formatos de datos dispersos.
Si su caso es 3), definitivamente considere usar la regularización como Lasso, para que el mejor modelo ligero / disperso (en algunas características importantes de todos estos) pueda detectarse y luego producirse.