Bibliotecas Básicas para Ciencia de Datos
- NumPy es la biblioteca fundamental para la computación científica en Python, y muchas de las bibliotecas de esta lista usan matrices NumPy como entradas y salidas básicas. En resumen, NumPy introduce objetos para matrices y matrices multidimensionales, así como rutinas que permiten a los desarrolladores realizar funciones matemáticas y estadísticas avanzadas en esas matrices con el menor código posible.
- SciPy se basa en NumPy al agregar una colección de algoritmos y comandos de alto nivel para manipular y visualizar datos. Este paquete incluye funciones para calcular integrales numéricamente, resolver ecuaciones diferenciales, optimización y más.
- Pandas agrega estructuras de datos y herramientas que están diseñadas para el análisis práctico de datos en finanzas, estadísticas, ciencias sociales e ingeniería. Pandas funciona bien con datos incompletos, desordenados y sin etiquetar (es decir, el tipo de datos que es probable que encuentre en el mundo real), y proporciona herramientas para dar forma, fusionar, remodelar y segmentar conjuntos de datos.
- IPython extiende la funcionalidad del intérprete interactivo de Python con un shell interactivo mejorado que agrega introspección, medios enriquecidos, sintaxis de shell, finalización de pestañas y recuperación del historial de comandos. También actúa como un intérprete integrable para sus programas que puede ser realmente útil para la depuración. Si alguna vez ha usado Mathematica o MATLAB, debería sentirse cómodo con IPython.
- matplotlib es la biblioteca estándar de Python para crear diagramas y gráficos en 2D. Es de nivel bastante bajo, lo que significa que requiere más comandos para generar gráficos y figuras de aspecto agradable que con algunas bibliotecas más avanzadas. Sin embargo, la otra cara de eso es la flexibilidad. Con suficientes comandos, puede hacer casi cualquier tipo de gráfico que desee con matplotlib.
Bibliotecas para el aprendizaje automático
- scikit-learn se basa en NumPy y SciPy al agregar un conjunto de algoritmos para tareas comunes de aprendizaje automático y minería de datos, que incluyen agrupación, regresión y clasificación. Como biblioteca, scikit-learn tiene mucho que ver. Sus herramientas están bien documentadas y sus colaboradores incluyen muchos expertos en aprendizaje automático. Además, es una biblioteca muy curada, lo que significa que los desarrolladores no tendrán que elegir entre diferentes versiones del mismo algoritmo. Su potencia y facilidad de uso lo hacen popular con muchas nuevas empresas con muchos datos, incluidos Evernote, OKCupid, Spotify y Birchbox.
- Theano usa una sintaxis similar a NumPy para optimizar y evaluar expresiones matemáticas. Lo que distingue a Theano es que aprovecha la GPU de la computadora para hacer cálculos intensivos en datos hasta 100 veces más rápido que la CPU sola. La velocidad de Theano lo hace especialmente valioso para el aprendizaje profundo y otras tareas computacionalmente complejas.
- TensorFlow es otro participante de alto perfil en el aprendizaje automático, desarrollado por Google como un sucesor de código abierto de DistBelief, su marco anterior para la formación de redes neuronales. TensorFlow utiliza un sistema de nodos de varias capas que le permiten configurar, entrenar e implementar rápidamente redes neuronales artificiales con grandes conjuntos de datos. Es lo que permite a Google identificar objetos en fotos o comprender palabras habladas en su aplicación de reconocimiento de voz.
Bibliotecas para minería de datos y procesamiento de lenguaje natural
- ¿Qué debo elegir: Ciencia de datos o Big Data?
- ¿Cuáles son las fortalezas y debilidades de la plataforma HAVEn de HP para el análisis de big data?
- ¿Cuáles son los pros y los contras de los algoritmos genéticos en comparación con otros métodos de optimización global?
- ¿Cuál es el salario base de un científico de datos en Airbnb?
- ¿Qué tan necesario es una comprensión profunda de la computación paralela para un científico de datos?
- Scrapy es una biblioteca bien nombrada para crear robots de araña para rastrear sistemáticamente la web y extraer datos estructurados como precios, información de contacto y URL. Originalmente diseñado para el raspado web, Scrapy también puede extraer datos de las API.
- NLTK es un conjunto de bibliotecas diseñadas para (NLP). Las funciones básicas de NLTK le permiten etiquetar texto, identificar entidades con nombre y mostrar árboles de análisis, que son como diagramas de oraciones que revelan partes del discurso y dependencias. A partir de ahí, puede hacer cosas más complicadas como el análisis de sentimientos y el resumen automático. También viene con todo el material de un libro sobre el análisis de texto con NLTK.
- Pattern combina la funcionalidad de Scrapy y NLTK en una biblioteca masiva diseñada para servir como una solución lista para usar para minería web, PNL, aprendizaje automático y análisis de redes. Sus herramientas incluyen un rastreador web; API para Google, Twitter y Wikipedia; y algoritmos de análisis de texto como analizar árboles y análisis de sentimientos que se pueden realizar con solo unas pocas líneas de código.
Bibliotecas para trazar y visualizar
- Seaborn es una biblioteca de visualización popular que se basa en los cimientos de matplotlib. Lo primero que notará sobre Seaborn es que sus estilos predeterminados son mucho más sofisticados que los de matplotlib. Más allá de eso, Seaborn es una biblioteca de nivel superior, lo que significa que es más fácil generar ciertos tipos de gráficos, incluidos mapas de calor, series de tiempo y gráficos de violín.
- Bokeh crea trazados interactivos y con zoom en navegadores web modernos utilizando widgets de JavaScript. Otra buena característica de Bokeh es que viene con tres niveles de interfaz, desde abstracciones de alto nivel que le permiten generar tramas complejas rápidamente, hasta una vista de bajo nivel que ofrece la máxima flexibilidad para los desarrolladores de aplicaciones.
- Basemap agrega soporte para mapas simples a matplotlib al tomar las coordenadas de matplotlib y aplicarlas a más de 25 proyecciones diferentes. La biblioteca Folium se basa aún más en Basemap y permite la creación de mapas web interactivos, similares a los widgets de JavaScript creados por Bokeh.
- NetworkX le permite crear y analizar gráficos y redes. Está diseñado para trabajar con formatos de datos estándar y no estándar, lo que lo hace especialmente eficiente y escalable. Todo esto hace que NetworkX sea especialmente adecuado para analizar redes sociales complejas.
Fuente – python.org