¿Cuál es el alcance de la ciencia de datos con Python?

Esta es una pregunta muy general y trataré de responder lo más detalladamente posible. Para comenzar con el pie derecho, primero le sugiero que eche un vistazo a Elegir R o Python para el análisis de datos. Una infografía para tener una idea del alcance de Python para aplicaciones de ciencia de datos .

Verás que Python es genial cuando quieres hacer aprendizaje automático o cuando recién estás comenzando con la ciencia de datos, mientras que R todavía tiene la ventaja cuando se trata de modelado estadístico y visualización. Sin embargo, Python definitivamente se está poniendo al día con esto, al igual que R se está poniendo al día en las áreas donde Python es muy fuerte en este momento. La elección entre los dos depende principalmente de su experiencia previa, su industria, el problema de la ciencia de datos que intenta resolver y el tiempo / costo que está dispuesto a utilizar para aprender Python / R.

Pero, aparte de la elección de un idioma u otro, lo que tal vez sea más importante, recientemente se han realizado esfuerzos considerables para unir los dos idiomas en proyectos / aplicaciones de ciencia de datos; Piense en los cuadernos Jupyter Notebook o RStudio, donde puede usar ambos idiomas u otras bibliotecas que ‘traducen’ Python a R y viceversa.

Cuando se habla del alcance de Python para la ciencia de datos desde el punto de vista de las personas en la industria de la ciencia de datos (la perspectiva más humana), diría que el alcance también es muy amplio: R y Python son muy populares , pero especialmente Python ha ganado mucha popularidad en los últimos años porque, como otros han mencionado, es un lenguaje de propósito general que mucha gente ya conoce y que generalmente se considera un lenguaje fácil para principiantes.

Pero, incluso más que eso, lo que a menudo se olvida en las respuestas a este tipo de preguntas es el hecho de que muchas personas que están aprendiendo ciencia de datos buscan cambiar sus carreras: por ejemplo, los desarrolladores web que conocen Python quieren agregar ciencia de datos a su conjunto de habilidades (desarrollo web de Python a Python Data Science, cambio de desarrollo web a ciencia de datos). Otro ejemplo son los administradores del sistema. Usted ve, el alcance es muy, muy amplio!

Tengo los siguientes puntos que mantener cuando alguien me pregunta sobre el alcance de la ciencia de datos y Python. Siento que Data Science y Python son una gran combinación.

Ver por qué:

  1. Las organizaciones de todos los tamaños e industrias dicen que es una institución financiera o una pequeña empresa de big data , todos están usando Python para sus negocios.
  2. Python se encuentra entre los lenguajes de programación de ciencia de datos populares no solo en las compañías de Big Data sino también en la multitud de empresas de nueva creación tecnológica. Alrededor del 35% de los científicos de datos usan Python.
  3. Python es genial cuando quieres hacer aprendizaje automático o cuando recién estás comenzando con la ciencia de datos
  4. Python fue el segundo lenguaje más poderoso (primero fue JavaScript) en 2017, con más de 1 millón de solicitudes de extracción abiertas. Un año antes de eso, era tercero detrás de Java. El repositorio más bifurcado fue TensorFlow, escrito en lenguaje Python

“Solo hay dos tipos de idiomas: los que se quejan y los que nadie usa”. – Bjarne Stroustrup.

Python viene en la categoría anterior.

6. Python está encontrando una mayor adopción en cómputos numéricos, aprendizaje automático y varias aplicaciones de ciencia de datos.

7. Python para la ciencia de datos requiere que los científicos de datos aprendan el uso de expresiones regulares, trabajen con las bibliotecas científicas y dominen los conceptos de visualización de datos. Con propósitos completamente diferentes, los programadores o profesionales que no conocen los conceptos de programación web con lenguaje Python pueden adelante fácilmente y persiga la ciencia de datos en lenguaje de programación Python sin ninguna dificultad.

8. Python es un potente lenguaje de programación dinámico expresivo de 23 años de edad en el que un programador puede escribir el código una vez y ejecutarlo sin usar un compilador separado para tal fin. Esto hace que Python sea muy conveniente.

Espero que la respuesta haya sido útil. Si te gusta la respuesta, por favor UPVOTE .

Por lo tanto, desea convertirse en un científico de datos o puede ser que ya lo sea y quiera expandir su repositorio de herramientas. Has aterrizado en el lugar correcto. El objetivo de esta página es proporcionar una ruta de aprendizaje integral a las personas nuevas en python para el análisis de datos. Esta ruta proporciona una descripción completa de los pasos que necesita para aprender a usar Python para el análisis de datos. Si ya tiene antecedentes, o no necesita todos los componentes, siéntase libre de adaptar sus propios caminos y háganos saber cómo realizó cambios en el camino. Paso 1: Configuración de su máquina

Ahora que ha tomado una decisión, es hora de configurar su máquina. La forma más fácil de proceder es descargar Anaconda desde casa. Viene empaquetado con la mayoría de las cosas que necesitará. La desventaja principal de tomar esta ruta es que tendrá que esperar a que Continuum actualice sus paquetes, incluso cuando haya una actualización disponible para las bibliotecas subyacentes. Si eres un principiante, eso no debería importar.

Si tiene problemas para instalar, puede encontrar instrucciones más detalladas para varios sistemas operativos aquí

Paso 2: aprende los conceptos básicos del lenguaje Python
Debe comenzar por comprender los conceptos básicos del lenguaje, las bibliotecas y la estructura de datos. El tutorial interactivo gratuito de Python de DataCamp es uno de los mejores lugares para comenzar su viaje. Este curso de codificación de 4 horas se enfoca en cómo comenzar a usar Python para la ciencia de datos y al final debe sentirse cómodo con los conceptos básicos del lenguaje.

Aprenda específicamente: Listas, Tuplas, Diccionarios, Comprensiones de listas, Comprensiones de diccionarios

Asignación: tome el tutorial interactivo de Python de DataCamp

Recursos alternativos: si la codificación interactiva no es su estilo de aprendizaje, también puede consultar The Google Class for Python. Es una serie de clases de 2 días y también cubre algunas de las partes discutidas más adelante.

Paso 3: visualización efectiva de datos
Revise este formulario de conferencia CS109. Puedes ignorar los 2 minutos iniciales, ¡pero lo que sigue después de eso es increíble! Sigue esta conferencia con esta tarea

Consulte el Tutorial de visualización de datos Bokeh de DataCamp
Paso 4: Aprenda Scikit-learn y Machine Learning
Ahora, llegamos a la carne de todo este proceso. Scikit-learn es la biblioteca más útil en python para el aprendizaje automático. Aquí hay una breve descripción de la biblioteca. Pase por la clase 10 hasta la clase 18 del curso CS109 de Harvard. Pasará por una descripción general del aprendizaje automático, algoritmos de aprendizaje supervisados ​​como regresiones, árboles de decisión, modelado de conjuntos y algoritmos de aprendizaje no supervisados ​​como agrupamiento. Siga las conferencias individuales con las tareas de esas conferencias.

Paso 5: aprendizaje profundo
Ahora que ha aprendido la mayoría de las técnicas de aprendizaje automático, es hora de probar Deep Learning. Existe una buena posibilidad de que ya sepa qué es Deep Learning, pero si aún necesita una breve introducción, aquí está.

Soy nuevo en el aprendizaje profundo, así que tome estas sugerencias con una pizca de sal. El recurso más completo es el aprendizaje profundo. Aquí encontrará todo: conferencias, conjuntos de datos, desafíos, tutoriales. También puede probar el curso de Geoff Hinton para intentar comprender los conceptos básicos de las redes neuronales.

Se utilizan principalmente 3 idiomas para Data Science, R, Python, SAS.

Ahora se paga a SAS, de modo que las empresas multinacionales lo utilizan principalmente.

Entre R y Python, ambos tienen casi la misma base de desarrolladores a partir de 2017 con respecto a Data Science, aunque Python está creciendo a un ritmo mucho más rápido.

Las bibliotecas utilizadas en R y Python también son similares. De hecho, se puede decir que Python usa el modelo de marco de datos de R. Aún así, R se considera mejor para Data Science.

Pero la mejor parte de Python es que es versátil. Se puede usar para Cloud Computing, desarrollo web, etc. y nos encantaría integrar Data Science con estas plataformas.

En resumen, R se utiliza principalmente para fines de investigación en el campo de la ciencia de datos, mientras que Python se utiliza como herramienta de ingeniería.

El alcance de Data Science con Python es bastante amplio y ser personas de código abierto contribuirá a ello y lo mantendrá en funcionamiento. También se prevé que la base de desarrolladores aumente aún más.

“Ciencia de datos + Python”. Esta es la combinación perfecta desde mi punto de vista. Hay otro lenguaje llamado ‘R’ que es más preferible para la ciencia de datos.

Tanto Python como R son lenguajes de programación populares para estadísticas. Si bien la funcionalidad de R se desarrolla teniendo en cuenta a los estadísticos (¡piense en las fuertes capacidades de visualización de datos de R!), Python es a menudo elogiado por su sintaxis fácil de entender.

Como Python es un lenguaje multipropósito, puede usarse ampliamente en comparación con R. La razón principal de esto es que encontrará R solo en un entorno de ciencia de datos; Como lenguaje de propósito general, Python, por otro lado, es ampliamente utilizado en muchos campos, como el desarrollo web. Esto a menudo sesga los resultados de la clasificación a favor de Python, mientras que los salarios se ven afectados de manera algo negativa.

Pero como desarrollador de Python, preferiré Python para la ciencia de datos. 🙂

No diría que la ciencia de datos no es posible con Python. Pero está creciendo en los últimos días. La gente prefiere R, Hadoop, SASS junto con Python. Todo lo relacionado con la ciencia de datos se realiza principalmente utilizando el paquete Scikit-Learn en python. Dado que tiene menos tiempo para aprender, preferiría que R fuera más sofisticado que Python, ya que lleva menos tiempo y encontrará más tutoriales en Internet. Ha crecido bastante rápido, hay muchos desarrolladores que crean nuevos paquetes en R. En general, te recomendaría usar R si eres un principiante que Python.

Esta charla de Trevis tiene muchas ideas (Trevis es inventor de Numpy y fundador de Continuum)

Ciencia de datos en Python Pandas, Scikit-learn, Numpy Matplotlib

More Interesting

Cómo elegir una carrera adecuada en el dominio de Big Data

¿Cuáles son las principales herramientas para la ciencia de datos?

Si un bebé humano nacido en 50000 a. C. fuera congelado, preservado y luego resucitado hoy (hipotéticamente), ¿podría ser educado y educado como cualquier otra persona moderna para convertirse, digamos, en programador, médico o científico de datos?

¿Cuál es la mejor computadora portátil para un científico de datos?

¿Qué tan difícil es conseguir un trabajo como científico de datos en Silicon Valley o Nueva York si estudiaste fuera del estado?

¿Es aconsejable elegir NYU MS en ciencia de datos en lugar de NYU MS CS ya que quiero hacer un doctorado en aprendizaje automático?

¿Cuáles son los mejores recursos gratuitos para nuevos desarrollos en aprendizaje automático y ciencia de datos?

¿Cuáles son las características principales de un sistema de minería de datos?

¿Un MBA en operación / cadena de suministro ayudará a comenzar una carrera en ciencias analíticas y de datos?

¿Cuáles son los métodos de selección de funciones disponibles en los paquetes de Python?

¿Hacer Zipfian (para ciencia de datos) o Iron Yard (diseño web) sinergizaría mejor con mis habilidades de ingeniería front-end?

¿Cuál es el mejor esquema de partición de disco para un Hadoop DataNode? ¿Es una pequeña partición RAID5 una mejor opción, o tal vez el sistema operativo debería coexistir en la primera partición DataNode, para evitar problemas de espacio en disco?

¿Sería ingenuo obtener un doctorado en física teórica con el objetivo final de un papel de ciencia de datos en la industria?

Cómo manejar unos 8 millones de tweets (17 GB) para un paso de preprocesamiento

¿Cuáles son los requisitos previos necesarios para aprender la administración de big data?