El futuro es brillante. La ciencia de datos ha existido por mucho tiempo. Simplemente no se llamaba explícitamente así. Los campos como el análisis de datos estadísticos, el almacenamiento de datos y la informática de alto rendimiento han existido durante mucho tiempo.
Conexión de conocimientos, análisis e infraestructura.
Donde ahora necesitamos tres personas:
- ¿Cómo es importante CCA 500 para hacer una carrera en big data?
- ¿Qué datos debo tener en cuenta al comparar el crecimiento de los países?
- ¿Cuál es la diferencia entre el desarrollador de Big Data junior y senior?
- ¿Cuáles son algunos algoritmos de aprendizaje automático menos conocidos, que no son tan famosos pero potentes?
- Como científico de datos, ¿cuáles son sus debilidades?
- Uno mirando a través de los números en Excel.
- Uno probando diferentes modelos en R o Python.
- Uno que pone una tubería en producción para transmitir los resultados en tiempo real o casi real.
Solo necesitaremos uno, que podría hacer lo anterior de extremo a extremo.
Ahora hablando de Python con ciencia de datos.
La mayoría de las empresas de análisis de datos, aprendizaje automático y PNL en la India usan Python por las siguientes razones:
- Python es fácil de aprender: la principal ventaja de Python es que cualquiera puede aprenderlo rápida y fácilmente. El lenguaje fue diseñado para ser simple y “light-lite” .
- Visualización / Gráficos: Python no es tan bueno como R (todavía), pero veremos más y más APIs geniales (por ejemplo, Plotly) y bibliotecas de visualización de datos que hacen que la ventaja parcial de R sea insignificante en comparación con Python. Puedes hacer cosas realmente geniales con Python.
- NumPy y pandas (Biblioteca de análisis de datos de Python) le permiten leer / manipular datos de manera eficiente y fácil.
- Matplotlib le permite crear visualizaciones de datos útiles y potentes. También he enumerado más paquetes de visualización de datos en Python: la respuesta de Yilun (Tom) Zhang (張 逸倫) a ¿Cuál es un buen sitio web de visualización de datos de Python?
- Scikit-learn le permite entrenar y aplicar algoritmos de aprendizaje automático a sus datos y hacer predicciones.
- PyBrain (PyBrain) y Tensorflow (https://www.tensorflow.org/versi…) para alguna red neuronal.
- Cython le permite convertir su código y ejecutarlo en un entorno C para reducir en gran medida el tiempo de ejecución y mejorar el rendimiento de su modelo.
- PyMySQL le permite conectarse fácilmente a la base de datos MySQL, ejecutar consultas y extraer datos.
- BeautifulSoup para leer fácilmente en datos de tipo XML y HTML que es bastante común hoy en día.
- Portátil iPython para programación interactiva como en R.
- Comunidad grande = Documentación = Brainpower: con Python, puedes encontrar una comunidad activa grande (¡y aún en crecimiento!). Al final del día, si se pierde, puede confiar en esta gran comunidad de expertos para que lo ayuden a encontrar una solución adecuada para los problemas de codificación (incluso los de nicho) y respuestas a preguntas relacionadas con la ciencia de datos.
Espero que eso ayude. Todo lo mejor y no dude en enviarme un mensaje si tiene alguna pregunta específica.
Seguir aprendiendo.