Cómo dominar la programación de Python para trabajos de ciencia de datos

Como Roman ya dijo, dominar Python para la ciencia de datos no difiere mucho de dominar Python en general, pero tiene algunos énfasis diferentes, ya que usa Python como una herramienta para su flujo de trabajo de ciencia de datos (que va desde la importación hasta la exploración, munging, modelado, validación e informes (y de vuelta a la importación, comenzando todo el proceso nuevamente).

Esto significa que algunos aspectos de Python serán más importantes para usted que otros:

  • Importar sus datos es algo que debe dominar. Muchas de las bibliotecas a continuación ofrecen funciones para esto.
  • Las listas y los diccionarios son bastante importantes para almacenar sus datos. Operaciones como seleccionar, agregar, eliminar, … elementos de estas estructuras no deberían ser nada extraordinario.
  • Las bibliotecas NumPy, Scikit-learn, Pandas, Matplotlib serán muy importantes para trabajar. Además, es posible que desee buscar en otras bibliotecas que sean buenas para el raspado web / minería de texto: puede encontrar algunas sugerencias aquí: Minería de texto en R y Python: 8 consejos para comenzar
  • Dado que la presentación de informes es importante en la ciencia de los datos (pero no necesariamente en la codificación), es posible que también desee consultar cuadernos como Jupyter.

Puede ser que todavía me olvide un par de cosas en esta lista, pero es solo una referencia.

Otros aspectos serán igualmente importantes, independientemente de si está aprendiendo Python para la ciencia de datos o no, como escribir funciones o controlar el flujo de su código con sentencias if / else o bucles.

Si está buscando las opciones de aprender Python para la ciencia de datos, considere consultar los tutoriales gratuitos de DataCamp (Tutoriales – Análisis e interpretación de datos en línea | DataCamp) o los cursos de Python, que están específicamente diseñados para enseñar Python para la ciencia de datos: Cursos de ciencia de datos : Tutoriales de análisis de R y Python | DataCamp

“En la programación de Python, todo es un objeto. Es posible escribir aplicaciones en lenguaje Python usando varios paradigmas de programación, pero sí permite escribir un código orientado a objetos muy claro y comprensible”, dijo Brian Curtin, miembro de Python Software Foundation. La amplitud, la eficiencia y se pueden dominar fácilmente bajo la guía de expertos: léalo, úsela con facilidad hace que Python sea ampliamente utilizado.

Si los profesionales son conscientes del hecho sobre qué tipo de proyecto estarán trabajando, entonces pueden tomar una decisión sobre qué idioma aprender primero. Si los proyectos requieren trabajar con datos mezclados o raspados de archivos, sitios web o cualquier otra fuente de datos, los profesionales primero deben comenzar su aprendizaje con el lenguaje Python. Por otro lado, si el proyecto requiere trabajar con datos limpios, los profesionales primero deben aprender a enfocarse en la parte de análisis de datos que requiere aprender primero la programación R.

Antes de dominar los trabajos de Python para Data Science, compruebe qué buscan realmente las empresas cuando contratan a un Data Scientist o un desarrollador de Hadoop. Le sugiero que asista al seminario web más reciente, donde el experto en reclutamiento Bob Kelly hablará sobre este tema. En los 20 minutos de sesión de preguntas y respuestas, puede interactuar directamente con el orador y aclarar sus dudas. Regístrese ahora en Registro

Querido,

Si desea dominar Python, debe comenzar con un enfoque paso a paso para no perderse ninguno de los fundamentos de Python. Hay mucho que explorar y aprender, pero asegúrate de que a medida que avanzas, cristalices tu conocimiento en cada paso. No se filtra. Lo digo porque sucede a menudo.

Estoy compartiendo algunos recursos que pueden ayudarte a dominar Python. Además, deberás practicar mucho. Tome los problemas de Kaggle y comience a implementar su erudición de Python. Cuanto más practiques, más te acercarás a ganar dominio en esto.

Recursos:
Ruta de aprendizaje integral: ciencia de datos en Python
Aprendiendo Python – La Guía del Autoestopista para Python
CS109 Data Science

Saludos,
John

Dominar Python para trabajos de DS no es muy diferente de dominar Python en general.

En primer lugar, debe tener mucha confianza en su capacidad de codificar. Puede validarse haciendo algunas contribuciones [menores] en proyectos de código abierto.

Después de ese paso comenzará la especialización. Incluirá bibliotecas de manejo de datos de aprendizaje (los pandas serán suficientes para comenzar), bibliotecas ML (scikit-learn) y tal vez Python API para Apache Spark.

No necesita Python maestro para escribir trabajos de ciencia de datos. Si comienza desde cero, lea el libro “un byte de python” y enloquezca. Python odia a los maestros 😉