¿Qué habilidades de codificación se necesitan para ser un científico de datos?

Aunque puede escribir códigos de ciencia de datos en la mayoría de los lenguajes de programación importantes, si tiene en mente hadoop, entonces el conocimiento básico de Java seguramente sería una ventaja.

También debe conocer al menos un lenguaje de script bien. A menudo, los archivos de entrada / salida requieren un procesamiento posterior que debe codificarse rápidamente. Aquí, Python es mi elección. El conocimiento básico de los scripts de bash también puede ayudar.

También debe conocer el paradigma de reducción de mapas en el que un gran problema se divide en subproblemas independientes más pequeños (mapas) que pueden ejecutarse en paralelo y los resultados de esos subproblemas se combinan (reducen) para producir el resultado.

El conocimiento de lenguajes de análisis de datos como R, MATLAB, etc. puede ayudarlo. Pero eso probablemente dependerá del proyecto específico en el que esté trabajando. Creo que aquí el conocimiento teórico y práctico del aprendizaje automático y los algoritmos de análisis estadístico son más importantes que las habilidades de codificación.

En general, el conocimiento de algoritmos, estructuras de datos y mejores prácticas son siempre más importantes que las habilidades de codificación. No solo en Data Science sino también en programación en general.

Gracias por el A2A.

Varía mucho Pero en estos días recomendaría fluidez en Python, incluida la familiaridad con las bibliotecas estándar (NumPy, SciPy, scikit-learn, etc.). Más amplitud y profundidad son mejores, pero tienes que comenzar en alguna parte.

Y sí, puedes hacer mucho con R. Scala es genial. No soy religioso sobre lenguajes de programación o plataformas. Pero Python parece haberse convertido en lo más parecido a una lengua franca para la ciencia de datos.

Finalmente, aunque no estoy seguro de que consideres que esto es codificación, debes poder usar lenguajes similares a SQL. Si va a ser un científico de datos, al menos necesitará poder trabajar con bases de datos relacionales.

Como siempre, lo remito al volumen de respuestas sobre “¿Cómo puedo convertirme en un científico de datos?”.

Estas son las habilidades más necesarias para un puesto de científico de datos al analizar miles de puestos de trabajo (también incluí algunos recursos gratuitos que encontré para cada habilidad):
1. Python

  • Curso de principiantes de programación web: aprenda la programación de Python
  • Pitón
  • Learn Python – Tutorial interactivo gratuito de Python

2. Aprendizaje automático

  • Aprendizaje automático en curso
  • Aprendizaje automático en curso

3. R

  • Aprenda el lenguaje de programación R y los conceptos básicos de RStudio en 1 hora
  • Lenguaje de programación R – Code School
  • Introducción a R | DataCamp

4. Big Data

  • Universidad Big Data
  • Big Data y Hadoop Essentials – Udemy
  • Descripción básica de Big Data Hadoop – Udemy

5. Hadoop

  • Big Data y Hadoop Essentials – Udemy
  • Descripción básica de Big Data Hadoop – Udemy
  • Curso de formación y certificación de Hadoop | Udemy

6. SQL

  • Entrenamiento interactivo en línea de SQL para principiantes
  • Sachin Quickly Learns (SQL): lenguaje de consulta estructurado
  • Tutorial SQL

7. Estadísticas

  • Estadísticas uno en curso
  • Estadística y probabilidad
  • Probabilidad y Estadística

8. Java

  • Aprenda Java: el tutorial de programación de Java para principiantes
  • Aprenda Java – Tutorial interactivo gratuito de Java
  • Aprenda programación Java desde cero – Udemy

9. Minería de datos

  • Minería de datos y raspado web: cómo convertir sitios en datos
  • Minería de datos en curso

Una excelente manera de adquirir nuevas habilidades y hacer crecer su red profesional es asistir a reuniones: http://data-science.meetup.com/

Puede obtener más información sobre las habilidades necesarias para convertirse en un científico de datos y obtener recursos relevantes aquí.

Suponiendo que ha cubierto los fundamentos, la respuesta es que depende exactamente de en qué estará trabajando. Pero en general, iría con Python. Tiene algunas bibliotecas fantásticas como Numpy, scikit-learn, etc. que puede usar, y el lenguaje es muy fácil de aprender, suponiendo que tenga experiencia en programación. Incluso de lo contrario, la curva de aprendizaje no es muy empinada.

R es otro idioma que podrías aprender. Sin embargo, no es necesario aprender R y Python, ya que ambos tienen excelentes paquetes para Data Science. Todo se reduce a preferencia, cuál eliges.

– Como he visto muchas publicaciones que comparan los lenguajes de programación necesarios para un puesto de científico de datos desde diferentes puntos de vista, decidí responder esta pregunta yo solo.

– He analizado las descripciones de trabajo con el título de trabajo “Científico de datos”. La mayoría de los datos se recopilan de las compañías del Área de la Bahía (la mayoría), Nueva York y Los Ángeles. (No incluí títulos de “ingeniero de aprendizaje automático” o “ingeniero de datos” en este análisis).

– Este análisis incluye casi 350 puestos de trabajo.

– Se puede ver que, como esperamos, Python está en la parte superior de la clasificación. Después de R, SQL es muy importante para un rol de científico de datos. En casi la mitad de las descripciones de trabajo, Spark es una habilidad necesaria para un científico de datos.

La respuesta a esta pregunta realmente depende de lo que comprenda bajo el título de “científico de datos”. He conocido científicos de datos que solo necesitaban comprender y ampliar el código Java básico / escribir pruebas JUnit. He conocido a otros que pasan la mayor parte de su tiempo codificando en varios lenguajes de programación.

Diría que definitivamente es bueno tener un dominio básico a intermedio en uno de los lenguajes de programación que se usa con frecuencia para la ciencia de datos si recién está comenzando. Sin embargo, una mayor competencia definitivamente será de gran valor para usted en su carrera posterior. De acuerdo con la encuesta de salarios de ciencia de datos más reciente de O’Reilly, esta es Python (54%) o R (57%). Si está interesado en big data, recomendaría Scala (en combinación con Spark). SQL es imprescindible en todos los casos.

Para comenzar con cursos introductorios gratuitos en Python o R, le recomendaría que eche un vistazo a los Cursos de ciencia de datos: Tutoriales de análisis de R y Python | DataCamp (también hay cursos más avanzados aquí), R para Data Science y Welcome · Advanced R.

Para Scala / Spark, consulte Introducción a Scala (Curso gratuito) y definitivamente asegúrese de leer Programación en Scala, Tercera edición (si le gusta leer libros).

Pitón.

Luego está Python.

Cuando hayas terminado con Python, aprende Python.

SQL también.

El aprendizaje automático y la lucha de datos se realizan en Python.

El siguiente curso lo ayudará a construir una base muy sólida para comprender lo que la mayoría de los ingenieros de aprendizaje automático realmente hacen todo el día.

El curso completo de Python para ingenieros de aprendizaje automático

Depende totalmente de qué tipo de Data Scientist esté considerando.

Obtendrá una buena comprensión de los diferentes tipos de científicos de datos, así como también qué codificación y otras habilidades requieren respectivamente en la respuesta dada por Michael Koelbl en ¿Cuáles son los diferentes tipos de científicos de datos?

Python / R / Spark, pero supongo que, en general, el siguiente blog en Analytics Leap (www.a-leap.com) ayudará: Analista de datos versus Científico de datos. ¿En qué se diferencian?

Mejor,

UNA

More Interesting

¿Debería unirme a 'dominar el análisis de datos con R' por edureka o 'Análisis de datos con R' por Udacity?

¿Cuáles son algunos cursos de análisis de datos?

Cómo saber si estoy listo para una entrevista de ciencia de datos

¿Qué tan arriesgado es cambiar a la ciencia de datos después de trabajar durante 4 años en TI?

¿Cuáles son las principales herramientas para la ciencia de datos?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?

Python (lenguaje de programación): ¿Qué se puede hacer con Python y simplemente no se puede hacer con R en el dominio de la ciencia de datos?

¿Cuál es la diferencia entre los conceptos de minería de datos y Big Data?

¿Hay algún sitio web que se ocupe de aplicar el análisis de datos y la interpretación estadística a los deportes electrónicos?

¿Data Science es el futuro de la programación y la habilidad de aprender de los aspirantes a programadores?

Uso mucho Python y R, y me gustaría comenzar una empresa que ofrezca servicios de análisis de datos. ¿Cómo puedo monetizar big data? ¿Donde debería empezar?

¿Cuál es el estado actual de Julia, el lenguaje de programación?

¿El aprendizaje automático tiende a producir ganancias de rendimiento marginales o revolucionarias?

Mientras se construye un modelo de datos predictivos, ¿el tratamiento para valores perdidos y valores atípicos debe realizarse tanto en los conjuntos de datos de entrenamiento como de prueba?