Cómo usar Python para ciencia de datos

Python es uno de los mejores lenguajes para la ciencia de datos (y más AI / ML / DL). Tiene una variedad de módulos (pandas, numpy, tensorflow, etc.) para un almacenamiento de datos fácil y eficiente. Además tiene buena compresión y módulos de almacenamiento a largo plazo (h5py, pickle, etc.) para almacenar estructuras de datos de python manipuladas en un formato fácil y recuperable. Los módulos de visualización también existen en abundancia, siendo mi favorito, matplotlib. Si desea analizar el aprendizaje automático y cosas similares, puede consultar módulos como sklearn (SVM, descenso de gradiente, otros optimizadores, algoritmos de aprendizaje), keras (redes neuronales), theano / tensorflow (optimizaciones de GPU / CPU) , etc. Si está desarrollando software propietario, le sugiero que use algo más rápido, tal vez C / C ++. Sin embargo, la implementación de ciertas cosas sería mucho más difícil.

Como cualquier otra herramienta para la ciencia de datos.

Instálelo, aprenda a usar numerosos marcos (numpy, scipy, sci-kit learn, pandas).

  1. Descargar / extraer datos
  2. Modelo de tren
  3. Obtener predicciones