R, SQL, Python y JavaScript pueden ayudarlo a resolver los problemas en el campo de la ciencia de datos y cada uno tiene sus méritos.
R es excelente para la visualización de datos, una parte clave de la búsqueda de patrones en grandes conjuntos de datos. El problema con R es que es notoriamente lento. REALMENTE, REALMENTE LENTO.
SQL es excelente para clasificar grandes conjuntos de datos y encontrar patrones en el texto a altas velocidades, pero generalmente se usa junto con otros lenguajes para presentar los datos que clasifica.
- ¿Cómo es hacer un doctorado en aprendizaje automático / minería de datos / big data en una escuela de negocios?
- Cómo saber si estoy listo para una entrevista de ciencia de datos
- ¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?
- ¿Quién cifra los datos?
- ¿Qué campos dentro de Data Science son los más relevantes?
Finalmente, Python y JavaScript. Los ingenieros de la industria de la ciencia de datos utilizan bastante estos dos lenguajes debido a su gran base de soporte (debido a la adopción a gran escala) y a su capacidad de presentar visualizaciones de datos a través de bibliotecas externas de código abierto. Al momento de escribir, Python es definitivamente más frecuente que JavaScript, pero JS se está poniendo al día con la aparición de nuevas bibliotecas potentes.
Aquí hay un informe informativo de 2014 (aunque tiene 3 años, si se toma este año, en 2017, sospecharía que Python es el líder mayoritario sobre R. Python está de moda en este momento)
Consejo final: comience con Python , revise algunos conjuntos de datos / cuadernos / núcleos en kaggle.com, vea cómo otros están implementando sus programas de análisis de datos. Luego, obtenga algunos grandes conjuntos de datos compartidos por facebook / google / amazon, y vea cómo pueden usar SQL y Python juntos para clasificarlos. La presentación de datos también es una parte importante del campo de la ciencia de datos, por lo que debe tener en cuenta algunas bibliotecas de visualización de gráficos en Python como MatPlotLib (o Javascript, pero tenga en cuenta que Python tiene mucho más soporte que JS en el momento de escritura).
Data Science es más un arte que una ciencia. Se trata de encontrar patrones. Será mejor para encontrar estos patrones al observar la forma en que otros se han acercado a un problema de ciencia de datos utilizando las herramientas que mencioné anteriormente. Al final, sin embargo, tendrás que desarrollar tu propia intuición sobre esto, que se perfecciona solo a través de la experiencia práctica .