¿Qué habilidades de codificación se necesitan para ser un científico de datos?

Aunque puede escribir códigos de ciencia de datos en la mayoría de los lenguajes de programación importantes, si tiene en mente hadoop, entonces el conocimiento básico de Java seguramente sería una ventaja.

También debe conocer al menos un lenguaje de script bien. A menudo, los archivos de entrada / salida requieren un procesamiento posterior que debe codificarse rápidamente. Aquí, Python es mi elección. El conocimiento básico de los scripts de bash también puede ayudar.

También debe conocer el paradigma de reducción de mapas en el que un gran problema se divide en subproblemas independientes más pequeños (mapas) que pueden ejecutarse en paralelo y los resultados de esos subproblemas se combinan (reducen) para producir el resultado.

El conocimiento de lenguajes de análisis de datos como R, MATLAB, etc. puede ayudarlo. Pero eso probablemente dependerá del proyecto específico en el que esté trabajando. Creo que aquí el conocimiento teórico y práctico del aprendizaje automático y los algoritmos de análisis estadístico son más importantes que las habilidades de codificación.

En general, el conocimiento de algoritmos, estructuras de datos y mejores prácticas son siempre más importantes que las habilidades de codificación. No solo en Data Science sino también en programación en general.

Gracias por el A2A.

Análisis deAnálisis de Big DataBig DataCiencia de datosdatosMinería de

¿Qué es la pérdida de registro en las competiciones de Kaggle?

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

¿Cómo se conectan Hadoop y Machine Learning?

¿Cómo entró por primera vez en Machine Learning / Data Science?

¿Cuáles son algunas ideas de proyectos de ciencia de datos de baloncesto?

¿Qué es un producto / tecnología no disponible en los Estados Unidos que desearías que fuera?

Varía mucho Pero en estos días recomendaría fluidez en Python, incluida la familiaridad con las bibliotecas estándar (NumPy, SciPy, scikit-learn, etc.). Más amplitud y profundidad son mejores, pero tienes que comenzar en alguna parte.

Y sí, puedes hacer mucho con R. Scala es genial. No soy religioso sobre lenguajes de programación o plataformas. Pero Python parece haberse convertido en lo más parecido a una lengua franca para la ciencia de datos.

Finalmente, aunque no estoy seguro de que consideres que esto es codificación, debes poder usar lenguajes similares a SQL. Si va a ser un científico de datos, al menos necesitará poder trabajar con bases de datos relacionales.

Como siempre, lo remito al volumen de respuestas sobre “¿Cómo puedo convertirme en un científico de datos?”.

Pourya Ayria

Estas son las habilidades más necesarias para un puesto de científico de datos al analizar miles de puestos de trabajo (también incluí algunos recursos gratuitos que encontré para cada habilidad):
1. Python

Curso de principiantes de programación web: aprenda la programación de Python
Pitón
Learn Python – Tutorial interactivo gratuito de Python

2. Aprendizaje automático

Aprendizaje automático en curso
Aprendizaje automático en curso

3. R

Aprenda el lenguaje de programación R y los conceptos básicos de RStudio en 1 hora
Lenguaje de programación R – Code School
Introducción a R | DataCamp

4. Big Data

Universidad Big Data
Big Data y Hadoop Essentials – Udemy
Descripción básica de Big Data Hadoop – Udemy

5. Hadoop

Big Data y Hadoop Essentials – Udemy
Descripción básica de Big Data Hadoop – Udemy
Curso de formación y certificación de Hadoop | Udemy

6. SQL

Entrenamiento interactivo en línea de SQL para principiantes
Sachin Quickly Learns (SQL): lenguaje de consulta estructurado
Tutorial SQL

7. Estadísticas

Estadísticas uno en curso
Estadística y probabilidad
Probabilidad y Estadística

8. Java

Aprenda Java: el tutorial de programación de Java para principiantes
Aprenda Java – Tutorial interactivo gratuito de Java
Aprenda programación Java desde cero – Udemy

9. Minería de datos

Minería de datos y raspado web: cómo convertir sitios en datos
Minería de datos en curso

Una excelente manera de adquirir nuevas habilidades y hacer crecer su red profesional es asistir a reuniones: http://data-science.meetup.com/

Puede obtener más información sobre las habilidades necesarias para convertirse en un científico de datos y obtener recursos relevantes aquí.

Ankit Gupta

Suponiendo que ha cubierto los fundamentos, la respuesta es que depende exactamente de en qué estará trabajando. Pero en general, iría con Python. Tiene algunas bibliotecas fantásticas como Numpy, scikit-learn, etc. que puede usar, y el lenguaje es muy fácil de aprender, suponiendo que tenga experiencia en programación. Incluso de lo contrario, la curva de aprendizaje no es muy empinada.

R es otro idioma que podrías aprender. Sin embargo, no es necesario aprender R y Python, ya que ambos tienen excelentes paquetes para Data Science. Todo se reduce a preferencia, cuál eliges.

Pourya Ayria

– Como he visto muchas publicaciones que comparan los lenguajes de programación necesarios para un puesto de científico de datos desde diferentes puntos de vista, decidí responder esta pregunta yo solo.

– He analizado las descripciones de trabajo con el título de trabajo “Científico de datos”. La mayoría de los datos se recopilan de las compañías del Área de la Bahía (la mayoría), Nueva York y Los Ángeles. (No incluí títulos de “ingeniero de aprendizaje automático” o “ingeniero de datos” en este análisis).

– Este análisis incluye casi 350 puestos de trabajo.

– Se puede ver que, como esperamos, Python está en la parte superior de la clasificación. Después de R, SQL es muy importante para un rol de científico de datos. En casi la mitad de las descripciones de trabajo, Spark es una habilidad necesaria para un científico de datos.

Pourya Ayria

La respuesta a esta pregunta realmente depende de lo que comprenda bajo el título de “científico de datos”. He conocido científicos de datos que solo necesitaban comprender y ampliar el código Java básico / escribir pruebas JUnit. He conocido a otros que pasan la mayor parte de su tiempo codificando en varios lenguajes de programación.

Diría que definitivamente es bueno tener un dominio básico a intermedio en uno de los lenguajes de programación que se usa con frecuencia para la ciencia de datos si recién está comenzando. Sin embargo, una mayor competencia definitivamente será de gran valor para usted en su carrera posterior. De acuerdo con la encuesta de salarios de ciencia de datos más reciente de O’Reilly, esta es Python (54%) o R (57%). Si está interesado en big data, recomendaría Scala (en combinación con Spark). SQL es imprescindible en todos los casos.

Para comenzar con cursos introductorios gratuitos en Python o R, le recomendaría que eche un vistazo a los Cursos de ciencia de datos: Tutoriales de análisis de R y Python | DataCamp (también hay cursos más avanzados aquí), R para Data Science y Welcome · Advanced R.

Para Scala / Spark, consulte Introducción a Scala (Curso gratuito) y definitivamente asegúrese de leer Programación en Scala, Tercera edición (si le gusta leer libros).

Ankit Gupta

Pitón.

Luego está Python.

Cuando hayas terminado con Python, aprende Python.

SQL también.

El aprendizaje automático y la lucha de datos se realizan en Python.

El siguiente curso lo ayudará a construir una base muy sólida para comprender lo que la mayoría de los ingenieros de aprendizaje automático realmente hacen todo el día.

El curso completo de Python para ingenieros de aprendizaje automático

Joydip Datta

Depende totalmente de qué tipo de Data Scientist esté considerando.

Obtendrá una buena comprensión de los diferentes tipos de científicos de datos, así como también qué codificación y otras habilidades requieren respectivamente en la respuesta dada por Michael Koelbl en ¿Cuáles son los diferentes tipos de científicos de datos?

Pourya Ayria

Python / R / Spark, pero supongo que, en general, el siguiente blog en Analytics Leap (www.a-leap.com) ayudará: Analista de datos versus Científico de datos. ¿En qué se diferencian?

Mejor,

UNA

Manvender Singh

More Interesting

¿Debería unirme a 'dominar el análisis de datos con R' por edureka o 'Análisis de datos con R' por Udacity?

¿Cuáles son algunos cursos de análisis de datos?

Cómo saber si estoy listo para una entrevista de ciencia de datos

¿Qué tan arriesgado es cambiar a la ciencia de datos después de trabajar durante 4 años en TI?

¿Cuáles son las principales herramientas para la ciencia de datos?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?

Python (lenguaje de programación): ¿Qué se puede hacer con Python y simplemente no se puede hacer con R en el dominio de la ciencia de datos?