¿Qué se requieren todos los lenguajes de programación para la ciencia de datos?

R, SQL, Python y JavaScript pueden ayudarlo a resolver los problemas en el campo de la ciencia de datos y cada uno tiene sus méritos.

R es excelente para la visualización de datos, una parte clave de la búsqueda de patrones en grandes conjuntos de datos. El problema con R es que es notoriamente lento. REALMENTE, REALMENTE LENTO.

SQL es excelente para clasificar grandes conjuntos de datos y encontrar patrones en el texto a altas velocidades, pero generalmente se usa junto con otros lenguajes para presentar los datos que clasifica.

Finalmente, Python y JavaScript. Los ingenieros de la industria de la ciencia de datos utilizan bastante estos dos lenguajes debido a su gran base de soporte (debido a la adopción a gran escala) y a su capacidad de presentar visualizaciones de datos a través de bibliotecas externas de código abierto. Al momento de escribir, Python es definitivamente más frecuente que JavaScript, pero JS se está poniendo al día con la aparición de nuevas bibliotecas potentes.

Aquí hay un informe informativo de 2014 (aunque tiene 3 años, si se toma este año, en 2017, sospecharía que Python es el líder mayoritario sobre R. Python está de moda en este momento)

Consejo final: comience con Python , revise algunos conjuntos de datos / cuadernos / núcleos en kaggle.com, vea cómo otros están implementando sus programas de análisis de datos. Luego, obtenga algunos grandes conjuntos de datos compartidos por facebook / google / amazon, y vea cómo pueden usar SQL y Python juntos para clasificarlos. La presentación de datos también es una parte importante del campo de la ciencia de datos, por lo que debe tener en cuenta algunas bibliotecas de visualización de gráficos en Python como MatPlotLib (o Javascript, pero tenga en cuenta que Python tiene mucho más soporte que JS en el momento de escritura).

Data Science es más un arte que una ciencia. Se trata de encontrar patrones. Será mejor para encontrar estos patrones al observar la forma en que otros se han acercado a un problema de ciencia de datos utilizando las herramientas que mencioné anteriormente. Al final, sin embargo, tendrás que desarrollar tu propia intuición sobre esto, que se perfecciona solo a través de la experiencia práctica .

Para la ciencia de los datos, el idioma que tendrá que aprender necesariamente es PYTHON. Porque –

  1. Cuenta con una extensa biblioteca para realizar análisis de datos.
  2. Tiene una gran comunidad, por lo que obtendrá respuestas a sus problemas fácilmente.
  3. Además de la parte de análisis de datos, puede usar el mismo idioma para convertir esos datos en una aplicación web o de escritorio utilizable si su proyecto lo requiere.

Pero si está escribiendo algoritmos complejos de aprendizaje automático o de redes neuronales que necesita entrenar en una gran cantidad de datos, entonces tiene que ir con R o MATLAB.

Para un principiante, Python es la mejor opción y puede comenzar a aprenderlo exclusivamente para la ciencia de datos de este curso:

Introducción a Python para Data Science

Este es un curso amigable para principiantes y puede comenzar a ensuciarse las manos con algunas herramientas básicas de ciencia de datos. Después de esto, puede optar por el curso intermedio por el mismo. No debería tomar más de un mes si sigues el curso con dedicación. Después de eso, puede intentar resolver problemas de nivel básico en Your Home for Data Science (Kaggle). Una vez que llegue a eso, usted mismo sabrá a dónde dirigirse a continuación. Buena suerte.

Para la ciencia de los datos, uno necesita comprender varios algoritmos, ya sea cuándo usarlos y cuándo no, el conocimiento del dominio del problema y luego la preparación de datos para la construcción de modelos y luego los lenguajes de programación, ya sea python java scala r o cualquier marco popular.

Espero que esto ayude

Algunos de la lista de lenguajes de programación:

R

Pitón

SAS

Scala

C

C ++

Java

SQL, Python y R, SAS, Spark, Hive, NLP, etc.

More Interesting

¿Cómo funciona el análisis espacial con datos topológicos?

¿Cuáles son algunos buenos libros de texto en selección / ingeniería de características al construir algoritmos de aprendizaje automático?

¿Cuál es la mejor opción para las ciencias de datos: IPython o R?

¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados ​​en Big Data?

¿Cuáles son las principales herramientas de ciencia de datos utilizadas por las organizaciones líderes?

¿Es posible obtener una 'posición cuantitativa' o trabajar en 'análisis de datos' después de hacer un trabajo de ingeniero de software durante varios años?

¿Cómo evaluaría la calidad de los datos y cómo se pueden mejorar?

¿Qué tipo de habilidades necesita desarrollar un programador científico durante la transición a un desarrollador de software industrial?

¿Qué empresas serían consideradas estrellas en ascenso con Big Data?

¿Dónde puedo obtener una descripción de esquema de los datos de Microsoft Academic Graph?

Cómo hacer aplicaciones basadas en un modelo basado en datos que toma datos de entrada y muestra predicciones de algo en particular

¿Cuál es la diferencia entre un almacén de datos y una plataforma de gestión de datos?

¿Cómo logra Coffee Meets Bagel tener éxito sin ningún científico de datos?

Cómo determinar la complejidad de una oración en inglés

Si quiero desarrollar herramientas analíticas en tiempo real para mi sitio web y agregar recomendaciones basadas en objetivos en tiempo real, ¿cuál entre PredictionIO y EasyRec sería una mejor opción? ¿Hay otras opciones mejores (de código abierto) disponibles aparte de estas dos?