No puedo dejar de estar de acuerdo con Ricardo Vladimiro y Alfredo Kalaitzis. Pero hay otro lado de la optimización que también se aborda en Data Science además de la optimización de modelos y es Optimización computacional .
Mientras que una de las principales preocupaciones de cualquier científico de datos es crear el modelo que mejor se adapte al problema en cuestión (tenga cuidado de sobreajustar et al.) Como encontrar heurísticas óptimas, las pérdidas mínimas de función se centran principalmente también en la optimización de la parte computacional, por ejemplo, de un algoritmo de aprendizaje automático.
No queremos que todos esperen largas horas antes de entrenar y validar un modelo. Así que a veces nos centramos en encontrar técnicas de aproximación para resolver este tipo de problemas.
- En la era de Big Data, ¿cómo elegimos información efectiva?
- ¿Cuál es la diferencia entre los datos generados por la actividad y los generados por la máquina en la terminología de Big Data?
- ¿Qué campo de estudio es el más fácil de aprender como principiante completo: información / seguridad cibernética, ciencia de datos o investigación de operaciones?
- ¿Cuál es el siguiente paso después de descargar un conjunto de datos sobre regresión?
- ¿Cómo será una carrera en análisis de big data en los próximos años?
Uno de mis favoritos es Monte Carlo Methods (o Random Search [1]) vs Classic Grid Search para la optimización de Hyper Parameters. La Búsqueda de cuadrícula sufre la maldición de la dimensionalidad y es posible que te encuentres atrapado haciendo pasos y niveles inútiles (complejidad [matemática] O (L ^ d) [/ matemática], donde L denota niveles yd para dimensión). Donde, por otro lado, los MCM son muy amigables con los problemas de alta dimensión y su complejidad computacional es [matemática] O (n) [/ matemática].
Notas al pie
[1] http://www.jmlr.org/papers/volum…