Esto es realmente todo el lugar. Muchas de estas herramientas están lejos de ser maduras y este panorama cambia enormemente muy rápido. Hay una gran superposición en la funcionalidad, por lo que las personas usan lo que sea más rápido para hacer el trabajo.
Las cosas no están tan estandarizadas como decir “¿Qué herramientas usa un programador de sistemas?”
No he estado trabajando activamente con datos durante aproximadamente 8 meses, por lo que es posible que ya esté un poco fuera de lugar, pero esto es lo que recuerdo haberme usado de la cabeza.
- ¿Cuál es el mejor marco de Python para el procesamiento en paralelo (procesamiento SMP y de clúster)?
- ¿Cuánto tiempo puede sobrevivir Informatica en el mundo de los grandes datos?
- ¿Es esto con lo que tienen que lidiar los científicos de datos?
- ¿Debo incluir kaggle en mi Cv?
- ¿Qué tan grande debe ser mi equipo de ciencia de datos?
Análisis de los datos
- El Proyecto R para Computación Estadística sigue siendo el más popular. Estoy de acuerdo con William en que es mejor usarlo a través de R Studio.
- Pandas es un conjunto de bibliotecas de Python si no quieres aprender un nuevo idioma
- El lenguaje Julia es una alternativa próxima a R. Pasé un poco de tiempo aprendiéndolo y me gustaría hacer un seguimiento de a dónde va el proyecto.
Almacenamiento de datos
- MySQL : puede manejar cómodamente conjuntos de datos de unos pocos GB. No vayas prematuramente a la colmena. MySQL está optimizado hasta la muerte y es muy bueno en latencia para ejecutar consultas ad-hoc.
- Archivos CSV: se sorprenderá de lo lejos que puede llegar al usarlos como su almacenamiento principal.
- Hive / Shark / Redshift: para cuando tus datos grandes son realmente grandes. Hive puede hacer uniones gigantes mientras Redshift es mejor para la latencia pero más limitado en sus uniones.
Visualización de datos
- D3.js para bonitas visualizaciones para poner en la web
- Matplotlib para el trazado ad-hoc de Python
- ggplot2 para R.
Aprendizaje automático
Estoy un poco oxidado con esto: el estado del arte se está moviendo rápidamente aquí.
- Sobre todo he entrenado modelos en R y lo he usado directamente o sobre Hive.
- He jugado con scikit-learn en el pasado y parece estar madurando.
- He usado Weka para probar algoritmos estándar rápidamente en nuevos conjuntos de datos en el pasado, pero es difícil producir algo con él.
Análisis de redes sociales
Ha pasado un tiempo desde que hice un SNA práctico, por lo que las cosas podrían haber cambiado recientemente.
- NetworkX es una biblioteca de Python bastante buena para SNA pero no está distribuida
- Proyecto de análisis de red de Stanford
- Apache Giraph es una implementación de código abierto del documento de Google Pregel.