Mis dos centavos:
¡Elige uno y solo uno ahora mismo! Aprenda bien, sepa por qué puede hacer lo que puede hacer con él y cómo usarlo para recopilar, limpiar, analizar, analizar, visualizar e informar sus hallazgos.
A pesar del alto enfoque en ser un matemático computacional de doctorado o científico de la computación con dominio de varios idiomas, los mayores desafíos en la ciencia de datos provienen de construir adecuadamente un análisis, estimar el error, decidir si el error es aceptable y derivar una inferencia útil para tomar decisiones a partir de eso.
- ¿Puedes compartir algunas fotos de tu lugar de trabajo?
- ¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?
- ¿Tendré oportunidades de trabajo después de hacer un curso de ciencia de datos de Simplilearn?
- ¿Qué tecnologías hay en Big Data?
- ¿Es el Internet de las cosas más sobre programación embebida o ciencia de datos?
Puede aprender estas cosas con R o Python como su idioma principal, así que elija uno y quédese con él hasta que tenga un dominio sólido del código Y la capacidad de trabajar ágilmente a través de algunos tipos diferentes de algoritmos y explicar más que solo el explicación de poco sonido de cómo funciona.
Probablemente deseará aprender ambos, pero al principio le servirá mejor, centrándose en aprender los entresijos de las preguntas conceptuales, como:
- Cómo estructurar bien los análisis
- Cómo aleatorizar y muestrear correctamente
- Cómo equilibrar muestras cuando las clases están representadas de manera desigual
- Cómo manejar valores perdidos u observaciones faltantes
- ¿Hay redundancia en mi modelo?
- Cómo hacer información útil de los resultados que obtienes de los modelos,
- Cómo comprobar su validez y estimar el error y comunicarlo en inglés simple y claro
Puede hacer estas cosas bien en cualquier idioma (hasta cierto punto, incluso Excel). Pero si está centrado en las herramientas y las palabras de moda para un currículum, es probable que se pierda el desarrollo de la capacidad intelectual que es mucho más un indicador de su preparación para el trabajo en una lista de ciencia de datos.
Y no consideraría que usted sea aceptablemente fluido en su idioma principal hasta que:
- Sepa cómo usarlo con SQL: sea capaz de realizar extracciones y fusiones de datos complejas y simples utilizándolas juntas.
- Comprenda cómo crear scripts que puede usar desde la línea de comandos de manera eficiente.
- Comprenda las consecuencias de las elecciones de programación que realiza en velocidad, complejidad y resultados.
- Son capaces de usar múltiples núcleos en un escritorio, sabiendo cuándo y cómo hacerlo
- Puede producir un documento final para mostrar en formato HTML o PDF desde el IDE; programación para producir informes.
- Puede leer datos de una API
- Puede raspar desde un sitio web
- Puede crear y almacenar datos en un simple SQL o Redis Cache
- Puede implementar un modelo para trabajar de forma independiente en la nube (ya sea AWS o Google)
- Puede usar un programador o un crontab para automatizar un script para que se ejecute de forma autónoma
- Sepa extraer datos de JSON y HTML y analizarlos en ambos formatos también
Si sabe cuándo y por qué un modelo puede fallar y sabe cómo evitar el fracaso o elegir un método mejor, entonces está en un buen lugar para aventurarse un poco y aprender un segundo lenguaje analítico.
En cuanto a cuál elegir. Esa es una pregunta simple y difícil. Pero no debe basarse en si Python es más fácil y más extensible o no. Siendo fuerte en R y funcional en Python, veo las fortalezas y desventajas de cada uno. Dependiendo de dónde esté comenzando, uno u otro podría ser más atractivo para usted como aprendiz.
Pero elegiría en función de a dónde creas que te diriges y qué se puede esperar de ti allí.
Considere qué tipo de ciencia de datos cree que querrá hacer. ¿Está interesado en la industria de la energía, tecnología financiera, venta minorista web, seguros, atención médica, genética, ciencias ambientales, ingeniería, automatización industrial, gestión de procesos, visión por computadora o IA robótica?
Si tiene un punto óptimo, entonces mire 100 descripciones de trabajo para ese tipo específico de analista de datos, científico de datos, ingeniero de aprendizaje automático y vea qué es lo que están utilizando, muchos tendrán un lenguaje ‘preferido’. ¡Entonces aprende ese idioma primero!
En algunos casos, encontrará que son 50/50 R frente a Python … pero en otros, hay una herramienta dominante. Si su objetivo es entrar en una determinada industria con un idioma preferido, ¡aprenda sobre la herramienta elegida, incluso si es más difícil!
Lo único que nunca debes hacer en ciencia de datos es tomar el camino más fácil simplemente porque es fácil, porque gran parte de lo que harás será desafiado en el camino, ¡deberías sentirte cómodo desafiándote desde el principio!
Si R es donde necesitas estar, ve allí de inmediato.
Cualquiera que sea el idioma que elija, use una herramienta bien pensada para aprenderlo. Eso puede quitarle meses de su curva de aprendizaje y mejorar lo que sabe de POR QUÉ hace las cosas de cierta manera.
DataCamp es un gran lugar para aprender y también tiene un programa básico de SQL. Dataquest es decente. Hay un montón de cursos de Coursera en cualquier idioma. Solo asegúrate de que si eliges Python, lo aprendes desde una perspectiva basada en datos porque es una bestia muy diferente a escribir software.
Es fácil pensar que lo que dificulta la ciencia de datos es construir un carcaj lleno de habilidades que la gente cree que debería tener.
Pero es fácil orientarse a las tareas, marcando los tipos de análisis que ha completado con una herramienta determinada, sin generar una capacidad intelectual útil.
Su valor se derivará de su capacidad para reflexionar sobre el problema comercial que resolverá por completo y construirá un modelo, luego probará y explicará por qué y cómo funciona su solución … el lenguaje es solo una herramienta.
Elija uno y conózcalo lo suficientemente bien como para que se convierta en su compañero para responder preguntas en lugar de ser un obstáculo para formularlas. Ese debería ser tu objetivo al principio.