¿Qué bibliotecas de Python se usan comúnmente en el mundo del análisis de datos / ciencia de datos?

La herramienta básica de manipulación de datos son los pandas . A veces también uso json y csv (solo porque uno de mi entorno no se puede actualizar, por lo que los pandas no son una opción).

Junto con los pandas, es posible que desee usar numpy y scipy . Tienen una función estadística muy útil, pero principalmente son una forma rápida de manipular la matriz.

Para la visualización de datos, los más comunes son matplotlib y seaborn . Sin embargo, eche un vistazo al bokeh también. Si tiene una gran cantidad de datos, definitivamente holoview y datashader pueden ser de gran ayuda.

Orientado al aprendizaje automático : aquí hay una variedad de bibliotecas, todo depende de lo que tenga que hacer. Sin embargo, un buen comienzo es scikit-learn . Algo un poco más avanzado es pymc y pymc3 ( eche un vistazo a los documentos, hay muchas referencias para aprender más sobre las técnicas bayesianas). Entonces eche un vistazo a xgboost .

Tenga en cuenta que pymc3 está construido sobre theano , otra biblioteca útil, muy utilizada para redes neuronales, como tensorflow . Sin embargo, para un desarrollo rápido de redes neuronales, podría usar keras .

Gestión de tuberías y rendimiento / velocidad . Las siguientes son bibliotecas generales que se pueden usar para todo. Para el multiprocesamiento, existe la biblioteca multiproceso estándar, sin embargo, un contenedor agradable y fácil es deco . Entonces definitivamente deberías mirar numba (para acelerar las funciones numéricas), hacer un muy útil ajuste de nultiprocesamiento y ejecutar trabajos en un clúster. Para la selección del modelo, como ajuste de hiperparámetro , mire dask-learn (ahora llamado dask-searchcv ). Además, luigi es una gran biblioteca para administrar canalizaciones.

Puedo olvidar algunos que uso todos los días, si algo me viene a la mente lo actualizaré.