Si me gradúo en 1-1 1/2 años con un programa de doctorado en economía, ¿cómo me preparo para un trabajo de ciencia de datos?

Creo que Preparing for Insight es el lugar perfecto para comenzar. De hecho, lo estoy siguiendo ya que estoy terminando mi doctorado en los próximos 6 meses.

Y, por supuesto, si se encuentra en EE. UU., Es posible que también desee solicitar su programa.

Recursos de ciencia de datos de Insight Data Science
Pitón

Python se ha convertido en el lenguaje de programación estándar para la ciencia de datos en casi todas las compañías de mentores de Insight, por lo que cuanto más pueda hacer para practicar la codificación en Python, mejor. Como científico de datos, usará Python para escribir secuencias de comandos que tomen su conjunto de datos (en cualquier formato en el que se encuentre) y lo lleven a un formato con el que pueda trabajar. Una vez que haya limpiado sus datos, los almacenará en una base de datos SQL.

Artículo de acción: Completa la clase Python de Google. Los miembros de Insight Fellows de sesiones anteriores se han entusiasmado con este curso y solo debería llevar unos días completarlo.

MySQL

Los científicos que trabajan en la academia a menudo solo almacenan datos en archivos de texto, pero en la industria casi siempre se usa una base de datos para almacenar datos debido al mayor rendimiento, entre otras razones. MySQL es una de las bases de datos más utilizadas en la industria. Aunque lo más probable es que use Hive o Pig para acceder a “big data”, hemos descubierto que estos lenguajes están tan cerca de SQL que los Fellows no tienen problemas para cruzar el puente hacia Hive y Pig después de dominar SQL.

Elemento de acción: Trabaje con los Tutoriales 1-6 en el sitio web de SQLzoo. Siéntase libre de explorar el sitio web para poder completar preguntas en los tutoriales. Como beneficio adicional, si se siente cómodo con el SQL en el sitio web de SQLzoo, intente resolver las preguntas de tarea de SQL en el curso de Bases de datos en Coursera. Si desea iniciar un proyecto de datos utilizando MySQL y Python, siga el tutorial de Zetcode para aprender a interactuar con MySQL a través de Python.

Análisis de datos usando Python

Ahora que ha ingresado sus datos en MySQL utilizando sus habilidades de codificación de Python, puede comenzar a hacer análisis de datos para encontrar información significativa en los datos o hacer predicciones. Hasta hace unos años, el lenguaje de programación estadística R era la mejor manera de hacer esto (y sigue siendo uno de los mejores, si ya eres experto en R). Sin embargo, en los últimos años, Python, con sus diversas bibliotecas como SciPy, Numpy, Pandas, iPython y matplotlib, la ha convertido en la herramienta elegida por los científicos de datos.

Artículo de acción: Vea el video de Wes Mckinney sobre cómo usar pandas en Python para el análisis de datos. Siga junto con sus ejemplos utilizando los cuadernos de datos y iPython que se encuentran aquí. Para una introducción rápida a los pandas, consulte el tutorial de 10 minutos para pandas. Wes McKinney escribió el libro Python para el análisis de datos, y es posible que desee ordenar que lo use como libro de referencia.

Aprendizaje automático

Tener una comprensión de las técnicas de aprendizaje automático más comunes y la experiencia de usarlas se está convirtiendo en algo imprescindible para muchos equipos de ciencia de datos. Podrías pasar años estudiando todo el campo, por supuesto, pero incluso tener una exposición básica al nivel de una clase introductoria te ayudará a hablar de manera inteligente sobre el tema, sabiendo cuándo usar un algoritmo específico para un curso. problema dado y poder comenzar a trabajar con una técnica de aprendizaje automático dada para construir su proyecto.

Artículo de acción: Tome el curso de aprendizaje automático de Andrew Ng en Coursera. Esto es ampliamente visto en la industria y por Insight Fellows como la mejor introducción y descripción general del aprendizaje automático que existe hoy en día. A los miembros de Insight Fellows de sesiones anteriores les resultó muy útil tomar notas resumidas durante el curso e intentando los ejercicios en Python.

Fundamentos de informática

Los científicos de datos no se ocupan mucho de los fundamentos de la informática (CS) y la mayoría de sus entrevistas para ser científicos de datos se centrarán en temas que corresponden a la ciencia de datos (es decir, los temas anteriores). Sin embargo, para bien o para mal, una parte del proceso de entrevistas en cada compañía incluirá la codificación de entrevistas. En Insight, los Fellows pasan una cantidad de tiempo decente haciendo ejercicios de codificación CS en preparación para este tipo de entrevistas. En particular, los dos (y prácticamente los únicos dos) temas que deberá comprender (a nivel CS 101) son algoritmos y estructuras de datos.

Elemento de acción: codifique los ejemplos en Resolución de problemas con algoritmos y estructuras de datos en Python. En particular, familiarícese con las pilas, las colas, las listas vinculadas, la ordenación por fusión, la ordenación rápida y la búsqueda y el hash. Si prefiere aprender viendo conferencias, consulte el curso de Introducción a los algoritmos del MIT. Bonificación: para cada algoritmo o estructura de datos que conozca, intente programarlo desde cero en Python, desde la memoria. Muchos becarios también han encontrado que Leetcode también es útil en la preparación de la entrevista para su sección de CS.

Lectura diaria

Estas son algunas de las principales fuentes de noticias leídas por personas en tecnología. Recomendamos comenzar a leer algunas de estas fuentes de noticias diariamente:

  • Noticias Hacker
  • DataTau
  • Techmeme
  • Aquí hay una lista de científicos de datos para seguir en Twitter
  • Boletín semanal de ciencia de datos

Pensamientos conclusivos
Trabajar en los libros de texto y tutoriales anteriores es excelente, pero la mejor manera de aprender ciencia de datos es haciendo ciencia de datos. El siguiente paso es utilizar estas herramientas y técnicas para comenzar un proyecto paralelo relacionado con los datos.

Esta lista se inició en las primeras sesiones de Insight como una forma de asegurarse de que nuestros Fellows estuvieran preparados para el Día 1 del programa; lo llamamos “Preparing for Insight”. Desde entonces, hemos trabajado con los miembros y mentores actuales para iterar y mejorar esta lista para que sea una de las guías de “inicio” más eficaces que existen. Con casi 100 alumnos de Insight trabajando ahora como científicos de datos, estamos seguros de que esta lista lo preparará para comenzar su propia transición.