La herramienta básica de manipulación de datos son los pandas . A veces también uso json y csv (solo porque uno de mi entorno no se puede actualizar, por lo que los pandas no son una opción).
Junto con los pandas, es posible que desee usar numpy y scipy . Tienen una función estadística muy útil, pero principalmente son una forma rápida de manipular la matriz.
Para la visualización de datos, los más comunes son matplotlib y seaborn . Sin embargo, eche un vistazo al bokeh también. Si tiene una gran cantidad de datos, definitivamente holoview y datashader pueden ser de gran ayuda.
- Tengo un dato de 50 filas de Lakh. ¿Cómo lo abro en R o Python? ¿O hay alguna otra alternativa que no sea usar Hadoop?
- ¿Debería centrarme en la ciencia de datos, el desarrollo web o el desarrollo de iOS?
- ¿Cuáles son los métodos de ciencia de datos más utilizados en los negocios?
- ¿Cuáles son los requisitos previos necesarios para aprender la administración de big data?
- ¿Consejos prácticos para el aprendizaje automático?
Orientado al aprendizaje automático : aquí hay una variedad de bibliotecas, todo depende de lo que tenga que hacer. Sin embargo, un buen comienzo es scikit-learn . Algo un poco más avanzado es pymc y pymc3 ( eche un vistazo a los documentos, hay muchas referencias para aprender más sobre las técnicas bayesianas). Entonces eche un vistazo a xgboost .
Tenga en cuenta que pymc3 está construido sobre theano , otra biblioteca útil, muy utilizada para redes neuronales, como tensorflow . Sin embargo, para un desarrollo rápido de redes neuronales, podría usar keras .
Gestión de tuberías y rendimiento / velocidad . Las siguientes son bibliotecas generales que se pueden usar para todo. Para el multiprocesamiento, existe la biblioteca multiproceso estándar, sin embargo, un contenedor agradable y fácil es deco . Entonces definitivamente deberías mirar numba (para acelerar las funciones numéricas), hacer un muy útil ajuste de nultiprocesamiento y ejecutar trabajos en un clúster. Para la selección del modelo, como ajuste de hiperparámetro , mire dask-learn (ahora llamado dask-searchcv ). Además, luigi es una gran biblioteca para administrar canalizaciones.
Puedo olvidar algunos que uso todos los días, si algo me viene a la mente lo actualizaré.