¿Debo aprender R y Python para Data Science y luego dominar uno de ellos?

Mis dos centavos:

¡Elige uno y solo uno ahora mismo! Aprenda bien, sepa por qué puede hacer lo que puede hacer con él y cómo usarlo para recopilar, limpiar, analizar, analizar, visualizar e informar sus hallazgos.

A pesar del alto enfoque en ser un matemático computacional de doctorado o científico de la computación con dominio de varios idiomas, los mayores desafíos en la ciencia de datos provienen de construir adecuadamente un análisis, estimar el error, decidir si el error es aceptable y derivar una inferencia útil para tomar decisiones a partir de eso.

Puede aprender estas cosas con R o Python como su idioma principal, así que elija uno y quédese con él hasta que tenga un dominio sólido del código Y la capacidad de trabajar ágilmente a través de algunos tipos diferentes de algoritmos y explicar más que solo el explicación de poco sonido de cómo funciona.

Probablemente deseará aprender ambos, pero al principio le servirá mejor, centrándose en aprender los entresijos de las preguntas conceptuales, como:

  • Cómo estructurar bien los análisis
  • Cómo aleatorizar y muestrear correctamente
  • Cómo equilibrar muestras cuando las clases están representadas de manera desigual
  • Cómo manejar valores perdidos u observaciones faltantes
  • ¿Hay redundancia en mi modelo?
  • Cómo hacer información útil de los resultados que obtienes de los modelos,
  • Cómo comprobar su validez y estimar el error y comunicarlo en inglés simple y claro

Puede hacer estas cosas bien en cualquier idioma (hasta cierto punto, incluso Excel). Pero si está centrado en las herramientas y las palabras de moda para un currículum, es probable que se pierda el desarrollo de la capacidad intelectual que es mucho más un indicador de su preparación para el trabajo en una lista de ciencia de datos.

Y no consideraría que usted sea aceptablemente fluido en su idioma principal hasta que:

  • Sepa cómo usarlo con SQL: sea capaz de realizar extracciones y fusiones de datos complejas y simples utilizándolas juntas.
  • Comprenda cómo crear scripts que puede usar desde la línea de comandos de manera eficiente.
  • Comprenda las consecuencias de las elecciones de programación que realiza en velocidad, complejidad y resultados.
  • Son capaces de usar múltiples núcleos en un escritorio, sabiendo cuándo y cómo hacerlo
  • Puede producir un documento final para mostrar en formato HTML o PDF desde el IDE; programación para producir informes.
  • Puede leer datos de una API
  • Puede raspar desde un sitio web
  • Puede crear y almacenar datos en un simple SQL o Redis Cache
  • Puede implementar un modelo para trabajar de forma independiente en la nube (ya sea AWS o Google)
  • Puede usar un programador o un crontab para automatizar un script para que se ejecute de forma autónoma
  • Sepa extraer datos de JSON y HTML y analizarlos en ambos formatos también

Si sabe cuándo y por qué un modelo puede fallar y sabe cómo evitar el fracaso o elegir un método mejor, entonces está en un buen lugar para aventurarse un poco y aprender un segundo lenguaje analítico.

En cuanto a cuál elegir. Esa es una pregunta simple y difícil. Pero no debe basarse en si Python es más fácil y más extensible o no. Siendo fuerte en R y funcional en Python, veo las fortalezas y desventajas de cada uno. Dependiendo de dónde esté comenzando, uno u otro podría ser más atractivo para usted como aprendiz.

Pero elegiría en función de a dónde creas que te diriges y qué se puede esperar de ti allí.

Considere qué tipo de ciencia de datos cree que querrá hacer. ¿Está interesado en la industria de la energía, tecnología financiera, venta minorista web, seguros, atención médica, genética, ciencias ambientales, ingeniería, automatización industrial, gestión de procesos, visión por computadora o IA robótica?

Si tiene un punto óptimo, entonces mire 100 descripciones de trabajo para ese tipo específico de analista de datos, científico de datos, ingeniero de aprendizaje automático y vea qué es lo que están utilizando, muchos tendrán un lenguaje ‘preferido’. ¡Entonces aprende ese idioma primero!

En algunos casos, encontrará que son 50/50 R frente a Python … pero en otros, hay una herramienta dominante. Si su objetivo es entrar en una determinada industria con un idioma preferido, ¡aprenda sobre la herramienta elegida, incluso si es más difícil!

Lo único que nunca debes hacer en ciencia de datos es tomar el camino más fácil simplemente porque es fácil, porque gran parte de lo que harás será desafiado en el camino, ¡deberías sentirte cómodo desafiándote desde el principio!

Si R es donde necesitas estar, ve allí de inmediato.

Cualquiera que sea el idioma que elija, use una herramienta bien pensada para aprenderlo. Eso puede quitarle meses de su curva de aprendizaje y mejorar lo que sabe de POR QUÉ hace las cosas de cierta manera.

DataCamp es un gran lugar para aprender y también tiene un programa básico de SQL. Dataquest es decente. Hay un montón de cursos de Coursera en cualquier idioma. Solo asegúrate de que si eliges Python, lo aprendes desde una perspectiva basada en datos porque es una bestia muy diferente a escribir software.

Es fácil pensar que lo que dificulta la ciencia de datos es construir un carcaj lleno de habilidades que la gente cree que debería tener.

Pero es fácil orientarse a las tareas, marcando los tipos de análisis que ha completado con una herramienta determinada, sin generar una capacidad intelectual útil.

Su valor se derivará de su capacidad para reflexionar sobre el problema comercial que resolverá por completo y construirá un modelo, luego probará y explicará por qué y cómo funciona su solución … el lenguaje es solo una herramienta.

Elija uno y conózcalo lo suficientemente bien como para que se convierta en su compañero para responder preguntas en lugar de ser un obstáculo para formularlas. Ese debería ser tu objetivo al principio.

¡Absolutamente no!

Es muy recomendable tomar primero un idioma y dominar el mismo. Como se mencionó anteriormente, desea aprender estos idiomas para Data Science y ambos lenguajes tienen una perspectiva muy diferente hacia Data Science, veamos cuáles son sus aspectos:

1. Python

Python es un lenguaje muy interactivo y se prefiere principalmente para el dominio de Data Science debido a su flexibilidad y la disponibilidad de paquetes y módulos cruciales para Data Science y Machine Learning. Con Data Science inclinado hacia el aprendizaje automático y luego más hacia Deep Learning, Python ofrece la compatibilidad que muchos científicos de software buscan.

Con la popular plataforma de aprendizaje automático de código abierto TensorFlow basada en Python, hace que el marco de Python sea más poderoso para Data Science y Machine Learning. Los submódulos de Python como Scikit learn, Scipy, Numpy, pandas, matplotlib ofrecen mucho para ayudarlo a analizar, limpiar, visualizar, probar e implementar conjuntos de datos en su modelo o algoritmo.

Python también es un lenguaje muy rápido en comparación con otro enfoque de lenguaje tradicional para Data Science y es uno de los idiomas de inglés más fáciles y casi escritos. Siendo casi sintaxis casi complicada, se centra más en el uso en perspectiva del programador y, por lo tanto, se convierte en el lenguaje más favorecido para la ciencia de datos y el aprendizaje automático.

Tome clases de capacitación en línea para aprender ciencia de datos con Python .

2. R:

R es una alternativa muy popular a Python para el dominio de la ciencia de datos. Aunque R es una herramienta más inclinada hacia la visualización de datos en lugar del aspecto de la implementación de conjuntos de datos para modelos de aprendizaje automático, R sigue siendo uno de los lenguajes más potentes que se utilizan de forma más activa y ofrece una poderosa interpretación del modelo y un apoyo confiable de la comunidad.

Pero, de hecho, R tiene una curva de aprendizaje más pronunciada debido a su complejo paradigma y los programadores sin experiencia previa en codificación pueden encontrar muy difícil unir todas las piezas en R.

Dado que el IDE de R llamado RStudio ofrece cuatro paneles de ventana de monitoreo con muchos procesos que se ejecutan en segundo plano para brindarle una imagen detallada de la arquitectura de lo que se está ejecutando bajo el capó en comparación con el IDE interactivo más popular de Python llamado Jupyter Notebook, R ha Se considera que es un lenguaje complejo y basado en la sintaxis que Python, pero ofrece amplias herramientas en visualización de datos y se prefiere a Python para el dominio de la ciencia de datos para aquellos que trabajan exclusivamente en Analytics.

Leer más: ¿Qué nivel de Python se requiere para aprender ciencia de datos y aprendizaje automático?

¿Por qué Python es un lenguaje de elección para los científicos de datos?

¿Tiene usted alguna pregunta? Espero que esto ayude. Si aún quieres orientación, puedes enviarme un mensaje. Te ayudaré con tus dudas.

Al final, depende de ti, de qué idioma te hace sentir como en casa y retoma ese idioma y continúa con tu viaje en Data Science.

¡Todo lo mejor!

Aprende ambos y juega con cada uno de sus puntos fuertes. Hace unos años aprendí R y tomé Python recientemente. No podía imaginar estar sin este último ahora.

Sin duda, en comparación con R, Python es más fácil de aprender. R también está vectorizado, lo que significa que es más complicado implementar bucles correctamente y aprovecharlos al máximo. Muchos se alejan de R por esta sola razón. También le resultará más fácil implementar su modelo de aprendizaje automático con Python. Para el aprendizaje profundo y las redes neuronales artificiales, bueno, realmente solo hay Python (pero RStudio ahora ha creado un paquete R para TensorFlow).

Sin embargo, también soy psicométrico, por lo que R es mi opción para el modelado de la teoría de respuesta al elemento y las simulaciones de pruebas adaptativas computarizadas. Este tipo de modelado no es una fuerza de Python en absoluto AFAIK.

Todo Python vs R es similar a CAFFE vs TensorFlow vs Torch vs Caffe2 vs Theano vs … etc. Un buen Científico de Datos debería tener más de una herramienta a su disposición. Naturalmente, puede terminar favoreciendo uno sobre el otro en función de sus propias necesidades y predilecciones.

Absolutamente elija uno, apréndalo, amplíe al siguiente. Domine el que usará para el próximo período de su vida (próximas clases, próximo trabajo, etc.).

R y Python están lo suficientemente cerca el uno del otro que realmente puede confundirse al tratar de aprender ambos. Lo intenté, comencé en mayo y fue una ciudad desastrosa. El que debe elegir es el verdadero desafío: ciertamente debe basarse en lo que hará con el idioma durante el próximo año o dos.

Si es un trabajo basado en estadísticas, entonces aprenda R (el que elegí). Pero me encuentro evitando algunos problemas en los que trabajar (el procesamiento de imágenes es muy grande) porque R no encaja realmente.

Mi sugerencia: vaya a Your Home for Data Science Encuentre algunos de los desafíos que coinciden con el tipo de trabajo que desea realizar durante el próximo año o dos. Vea cuántos de los núcleos están escritos en R vs Python. Para muchos, hay un recuento casi igual con ambos utilizados. Para unos pocos, los usuarios de R son raros. No recuerdo ninguno donde Python es raro. Basado en eso, debería haber elegido Python.

Si no tiene aplicaciones de trabajo para ayudarlo con el aprendizaje, entonces quédese en Your Home for Data Science y pruebe los desafíos disponibles. Puede involucrarse fácilmente en un desafío y obligarse a aprender. En la mayoría de los casos, otras personas proporcionarán algunos núcleos básicos para mostrar cómo se puede realizar la tarea.

Debes apuntar a un idioma antes de saltar a otro. Python es mucho más versátil que R y sería bueno comenzar con él. La ciencia de datos es un campo en el que el dominio de la teoría del sonido paga bien, por eso la ciencia parte en el nombre.

Por lo tanto, mi sugerencia sería comenzar con Python y desarrollar su dominio con la teoría analítica. Una vez que te sientas aburrido de aprender Python o tu trabajo exija específicamente R, pasa a él.

Si vienes del campo de la informática, está bien que uses python, será más fácil. En cambio, si vienes de estadísticas, econometría, ciencias sociales, biología o ciencias de la salud, tu mejor opción será R.

Ambos son bastante buenos y evolucionan, pero R es mejor para el análisis de datos, visualización e informes.

Es bueno poder usar R y python ya que son los dos lenguajes de programación de ciencia de datos principales. Sin embargo, creo que es bueno estar cómodo con al menos uno de ellos y si personalmente quisiera elegir uno, optaría por Python porque es mucho más fácil de usar y es útil para la producción de código. Si no tienes tiempo para aprender ambos, me quedaría con Python.

De todos modos, si tienes tiempo, es bueno aprender ambos. Algunos han argumentado que R es bueno para limpiar datos, mientras que Python es bastante bueno para el aprendizaje automático, estoy de acuerdo.

Estoy en el mismo punto que tú … justo al principio. La sugerencia que tuve fue mirar el ecosistema Apache Spark. Está siendo ampliamente utilizado por organizaciones que se toman en serio el análisis de datos. R y Python se encuentran dentro de la capa API de Spark Core. Ambos parecen coexistir felizmente en entornos de ciencia de datos. La elección se reduce a la necesidad específica. Estoy aprendiendo R por ahora y complementaré con Python según sea necesario. Tiene sentido para mis necesidades: científico de datos de ciudadanos novatos. Cuando me sienta cómodo con R y esté buscando más, abriré Python.

Elige uno primero y aprende bien. Si está buscando más roles matemáticos, elija R. Si está buscando roles de producción / software, elija Python. Después de aprender uno, intente abordar el otro.