¿La optimización está relacionada con la ciencia de datos? ¿Y cómo?

No puedo dejar de estar de acuerdo con Ricardo Vladimiro y Alfredo Kalaitzis. Pero hay otro lado de la optimización que también se aborda en Data Science además de la optimización de modelos y es Optimización computacional .

Mientras que una de las principales preocupaciones de cualquier científico de datos es crear el modelo que mejor se adapte al problema en cuestión (tenga cuidado de sobreajustar et al.) Como encontrar heurísticas óptimas, las pérdidas mínimas de función se centran principalmente también en la optimización de la parte computacional, por ejemplo, de un algoritmo de aprendizaje automático.

No queremos que todos esperen largas horas antes de entrenar y validar un modelo. Así que a veces nos centramos en encontrar técnicas de aproximación para resolver este tipo de problemas.

Uno de mis favoritos es Monte Carlo Methods (o Random Search [1]) vs Classic Grid Search para la optimización de Hyper Parameters. La Búsqueda de cuadrícula sufre la maldición de la dimensionalidad y es posible que te encuentres atrapado haciendo pasos y niveles inútiles (complejidad [matemática] O (L ^ d) [/ matemática], donde L denota niveles yd para dimensión). Donde, por otro lado, los MCM son muy amigables con los problemas de alta dimensión y su complejidad computacional es [matemática] O (n) [/ matemática].

Notas al pie

[1] http://www.jmlr.org/papers/volum…

No quiero ser programador, pero tengo interés en SQL y Big Data. ¿Cómo puedo conseguir esto?

¿Qué libro o curso en línea sería el mejor para aprender estadísticas para la ciencia de datos?

¿Cuáles son algunas ideas o proyectos en Machine Learning o análisis de big data en un hackathon?

¿Hay empresas o startups que ofrecen Apache Mahout o similar como un producto, distribución o servicio empaquetado?

Cómo construir una plataforma de análisis para compartir datos con terceros

¿Por qué se usa el análisis de datos?

Todos los modelos matemáticos con algún tipo de parámetro adaptativo se ajustan a los datos minimizando una función de costo, por ejemplo, regresión lineal usando la suma de la pérdida de errores al cuadrado, regresión logística usando la pérdida de entropía cruzada, etc. Incluso las transformaciones de datos de forma cerrada tienen una función de costo implícito que minimizan. PCA usa la suma de distancias de proyección al cuadrado (sujeto a restricciones de ortogonalidad también).

En última instancia, bajo el capó de cada algoritmo de aprendizaje automático, hay un algoritmo de optimización que se ajusta a esos parámetros adaptativos. Pueden ser de propósito general, como el descenso de gradiente (estocástico), o el algoritmo de Newton, que se puede aplicar en cualquier función de costo continuamente diferenciable. O específico para ciertas restricciones, como LARS, que trata con penalizaciones L1.

Lalit Patel

Realmente me gusta la respuesta de Alfredo Kalaitzis y creo que responde la pregunta perfectamente.

Estoy agregando el mío, por si la optimización no es matemática. En un sentido comercial más amplio y no técnico, todo en ciencia de datos es optimización. De hecho, defiendo que la parte científica en la ciencia de datos es, en parte, proporcionar evidencia de que se produjo la optimización.

Déjame darte un par de ejemplos prácticos:

Un sistema de recomendación para aumentar el número de unidades por caja. Estamos optimizando los ingresos en función del aumento de unidades por venta.
Bandidos con múltiples brazos en múltiples embudos de experiencia de usuario por primera vez. Estamos optimizando la retención.

Jane Onwuchekwa

Aquí está mi contribución:

i) La optimización es parte de la ciencia de datos

ii) La ciencia de datos no es solo para analizar datos, debe ayudarlo a tomar decisiones al respecto, de lo contrario, no es muy importante en términos de negocios.

iii) La inferencia consiste en sacar conclusiones sobre parámetros desconocidos en la población, utilizando para ello un conjunto de muestras representativas … cuando está optimizando la toma de decisiones, está considerando sus mejores opciones, es decir, las características de su población, por lo que la optimización también es inferencia, a diferencia de muchas Puede intentar convencer.

iv) DS evolucionará para implicar, si no implica, la optimización:

Allí, espero que su pregunta sea respondida claramente 🙂

Lalit Patel

Como otros han mencionado, la optimización es fundamental para el uso de modelos en aprendizaje automático y estadísticas. Sin embargo, hay otro sentido en el que la optimización es relevante que creo que se subestima un poco. En resumen, como científico de datos, no es suficiente hacer predicciones o conclusiones a partir de sus datos; tienes que tomar decisiones basadas en lo que encuentres. Y si vas a tomar una decisión, es terriblemente difícil justificar que no tomes la decisión óptima. Ahí es donde la optimización realmente entra en juego como parte de la ciencia de datos en la práctica.

Jane Onwuchekwa

Sí, la teoría de optimización está literalmente relacionada con cada disciplina cuantitativa.

De hecho, puede decir con precisión que cada problema en ciencia e ingeniería puede formularse como un problema de optimización (una paráfrasis de Walter Murray de una de sus conferencias en la Universidad de Stanford).

Incluso las leyes de la física se reducen a un problema de optimización conocido como el principio de mínima acción de Maupertise. Entonces, ¡podría ir tan lejos como para decir que la realidad física en sí misma obedece a la teoría de optimización, hasta donde podemos decir!

Alfredo Kalaitzis

La optimización es un área muy importante. Hasta donde yo sé, pertenece a Investigación de Operaciones y Gestión Cuantitativa. El campo de la ciencia de datos todavía está evolucionando y actualmente está ocupado manejando muchos otros elementos importantes. Sin embargo, diferentes organizaciones tienen diferentes definiciones y alcances de Data Science. Entonces, si lo desea, puede obtener la optimización incluida bajo el paraguas de Data Science.

Jane Onwuchekwa

More Interesting

¿Cómo logra Coffee Meets Bagel tener éxito sin ningún científico de datos?

¿Por qué las empresas solicitan habilidades de ingeniería de datos cuando reclutan científicos de datos, es decir, matemáticos?

¿Qué programación es beneficiosa para los científicos de datos?

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

¿Existe alguna mejor práctica o técnica para modelar bases de datos / conjuntos de datos para big data y / o aprendizaje automático?

¿Cuál es el mejor curso para Python en ciencia de datos?

¿Qué ventajas ofrece un doctorado en bioestadística / bioinformática al aplicar un trabajo de científico de datos?

¿Puede alguien de una experiencia que no sea de software aprender o cambiar a análisis de big data?

¿Qué es la intuición estadística?

¿Qué es todo lo que hay que aprender sobre el análisis de big data?