¿Qué marcos serían beneficiosos al usar Python para las ciencias de datos para principiantes?

Principiante o no, debe familiarizarse con numpy, matplotlib, sklearn y pandas. Si conoce estas bibliotecas y se siente familiarizado con ellas, puede comenzar a explorar la mayoría de los temas que le pueden interesar, como el aprendizaje automático, la mezcla de datos, la visualización de datos, el análisis exploratorio … y así sucesivamente. Cada una de esas bibliotecas cubre una función particular y generalmente funcionan mejor juntas.

matplotlib : para la visualización de datos, también puedes probar seaborn.

numpy : métodos numéricos y matemáticos (particularmente matrices). Muy importante.

pandas : cargar, transformar y operar sobre datos. Funciona bien con matplotlib y numpy, entre muchos otros.

sklearn : biblioteca estándar de aprendizaje automático, que incluye muchos algoritmos y también conjuntos de datos muy interesantes que están preparados para jugar con ellos.

Las primeras tres tecnologías están muy bien cubiertas en el libro Python para el análisis de datos, escrito por el autor principal de los pandas Wes McKinney (escribí más sobre el libro en esta respuesta).

Además de las bibliotecas, es posible que desee familiarizarse con los portátiles iPython y Jupyter. Son herramientas muy convenientes que realmente lo ayudan en sus tareas como científico de datos. También tienen sus inconvenientes, pero en general creo que es necesario aprender sobre ellos (especialmente porque hay un montón de trabajo increíble realizado en los cuadernos).

Debe intentar ver si es conveniente para usted, puede terminar prefiriendo trabajar con Spyder, PyCharm … y muchos otros.

Hola, he leído tu pregunta. Probablemente desee crear visualizaciones de datos, y quizás también desee codificar algunos programas de aprendizaje automático. Por lo tanto, lo siguiente probablemente sería más valioso:

numpy

matplotlib

escoria

pandas

ggplot

sklearn