Principiante o no, debe familiarizarse con numpy, matplotlib, sklearn y pandas. Si conoce estas bibliotecas y se siente familiarizado con ellas, puede comenzar a explorar la mayoría de los temas que le pueden interesar, como el aprendizaje automático, la mezcla de datos, la visualización de datos, el análisis exploratorio … y así sucesivamente. Cada una de esas bibliotecas cubre una función particular y generalmente funcionan mejor juntas.
matplotlib : para la visualización de datos, también puedes probar seaborn.
numpy : métodos numéricos y matemáticos (particularmente matrices). Muy importante.
- ¿Qué ideas procesables ha recopilado Netflix del análisis de big data? ¿Cómo influye en la habitación del escritor?
- ¿Por qué Excel es una herramienta tan infravalorada para el análisis de datos?
- ¿Cuál es la relación exacta entre Hadoop y Big Data?
- ¿La física ayuda a entender la ciencia de datos?
- ¿Por qué la gente está tan loca por Hadoop?
pandas : cargar, transformar y operar sobre datos. Funciona bien con matplotlib y numpy, entre muchos otros.
sklearn : biblioteca estándar de aprendizaje automático, que incluye muchos algoritmos y también conjuntos de datos muy interesantes que están preparados para jugar con ellos.
Las primeras tres tecnologías están muy bien cubiertas en el libro Python para el análisis de datos, escrito por el autor principal de los pandas Wes McKinney (escribí más sobre el libro en esta respuesta).
Además de las bibliotecas, es posible que desee familiarizarse con los portátiles iPython y Jupyter. Son herramientas muy convenientes que realmente lo ayudan en sus tareas como científico de datos. También tienen sus inconvenientes, pero en general creo que es necesario aprender sobre ellos (especialmente porque hay un montón de trabajo increíble realizado en los cuadernos).
Debe intentar ver si es conveniente para usted, puede terminar prefiriendo trabajar con Spyder, PyCharm … y muchos otros.