He seguido el MOOC de ciencia de datos de la Universidad John Hopkins. ¿A dónde debería ir desde aquí para obtener más información sobre Data Sciences y convertirme en un Junior Data Scientist?

La respuesta de Paul DeVos cubrió muchos puntos importantes sobre cómo convertirse en un Científico de Datos.

El consejo más importante que puedo ofrecer como profesional de Ciencias de la Información / Ingeniería es aprender bien las estadísticas. A menudo, el impacto de las iniciativas de big data y data science se puede amplificar en las organizaciones, si los científicos de datos tienen una buena comprensión de las estadísticas que subyacen a muchos de los conceptos e ideas de la ciencia de datos. Esto incluiría una buena comprensión de las estadísticas básicas e inferenciales, y los antecedentes estadísticos de métodos avanzados como el aprendizaje automático (clasificación y agrupamiento).

Además de esto, los bits que Paul trajo, especialmente los aspectos de Ingeniería de Datos, son igualmente importantes. Como profesional de la ciencia de datos, también es importante comprender bien los casos de uso del cliente. Todos los análisis de datos en el mundo no ayudarán si no comprende el escenario de la industria y el caso de uso para el que se requiere el análisis de datos, y esto requiere experiencia comercial de algún tipo. Sugeriría adquirir experiencia en una compañía que es conocida por apoyar la ciencia de datos y las iniciativas de big data como parte del proceso de toma de decisiones. Dejando a un lado otras consideraciones sobre la organización, la experiencia práctica en el manejo de datos y el conocimiento de los desafíos de la toma de decisiones con datos definitivamente ayudarán. Este tipo de perspectivas solo se pueden obtener cuando se trabaja en una organización que recopila, analiza y utiliza datos para una buena toma de decisiones.

Una tercera cosa es adquirir competencia en programación en lenguajes aliados. Un lenguaje de programación estructurado, como C es valioso. Otros lenguajes OOP que vale la pena aprender, dada la prevalencia de Apache Hadoop, son Java y Python. Aunque puede interactuar con Pig y Hive a través de diferentes marcos, conocer estos idiomas ayuda. Una gran cantidad de profesionales de Data Science dedican tiempo a dominar varios idiomas y, en mi opinión, esto no es realmente productivo. Ayuda a conocer un idioma realmente bien, y tal vez esto sea R para los científicos de datos. Dicho esto, vale la pena considerar Python debido a su velocidad, bibliotecas que le permiten desarrollar productos de datos en Python, y más.

Recursos adicionales que quizás desee ver:

  1. Ciencia de datos ejecutivos (JHU) en Coursera.org
  2. Business Analytics (UPenn) en Coursera.org
  3. Libros de Leanpub sobre diversos temas de ciencia de datos, por los profesores de JHU (Roger Peng, Jeff Leek, Brian Caffo)
  4. Introducción al aprendizaje estadístico (curso en línea de Stanford, con un excelente libro, de los profesores Hastie y Tibshirani en Stanford)
  5. También recomendaría la librería O’Reilly: hay excelentes libros sobre Data Science, Hadoop Big Data Architecture, programación R y Python

Las mayores áreas de crecimiento probablemente serían la integración de ingeniería de datos, big data y aprendizaje automático en grandes conjuntos de datos (miles de millones y / o billones de filas, archivos de 20-500 GB, etc.).

El curso se realizó principalmente en R y R no es una muy buena herramienta de ciencia de datos [para grandes conjuntos de datos] sin alguna ayuda. Necesitará algún tipo de motor para usar R en conjuntos de datos más grandes.

Como Data Scientist, especialmente como Jr Data Scientist, es probable que tengas que extraer los datos de alguna parte. Podría ser tan simple como alguna base de datos SQL como SQL Server, MySQL o PostgreSQL para su herramienta analítica de elección. A menudo no puede incorporar ese conjunto de datos directamente a R, ni siquiera con una computadora portátil de 8 núcleos y 32 GB. Maximizará sus recursos de memoria con bastante rapidez. Una regla práctica decente para su ‘tamaño máximo de archivo’ en R es 1/3 de su memoria disponible, por lo que ~ 10 GB. Entonces, una fuente en la nube puede estar en orden. Hay varias opciones desde allí, AWS, Azure, Hadoop, etc. La cantidad de abstracciones además de estas tecnologías a menudo “se reduce” a SQL. Por lo tanto, como mínimo, debe tener buenas habilidades de SQL. Pero también puede que tenga que escribir MapReduce (Java, Python, etc., no R) para quizás utilizar Spark (Scala, Python, etc., no R) en caso de que necesite optimizar sus extracciones de datos o algo que un script SQL solo no tirar tan bien. Dicho todo esto, hay muchas posibilidades de que necesite conocimientos de programación en Python, Java y quizás en Scala. Dependiendo de sus recursos, es posible que necesite escribir SQL optimizado que implique un mayor conocimiento de índices, combinaciones, cte, etc., así como posiblemente escribir un buen MapReduce. Definitivamente tendrás que saber sobre Hadoop.

Aquí puedes aprender sobre ORM. Echa un vistazo a algo como SQLAlchemy. ¿Qué pasa si tiene un gran almacén de datos como MongoDB? Lo mejor es aprender sobre las API RESTful. Probablemente sea una muy buena idea comprender cuáles son los usos, fortalezas y debilidades inherentes de los diversos almacenes de datos de Big Data (NoSQL). Hay muchas posibilidades de que trabajes con al menos uno de esos en tu nuevo puesto. Y en los próximos 2 a 5 años, me imagino que sería difícil encontrar un rol de ciencia de datos que no implique el uso de big data. “7 Bases de datos en 7 semanas” ( http://www.amazon.com/Seven-Data …) no es un mal lugar para comenzar. Obviamente hay videos de YouTube y muchas otras fuentes.

Desde aquí, limpiar los conjuntos de datos. Los MOOC de los que habló tuvieron una muy buena introducción a los datos de limpieza. Pero, ¿qué pasa si tiene miles de millones o billones de filas y no puede usar R por alguna razón?

Es probable que tenga que tener 2-3 conjuntos de herramientas diferentes en cada paso del proceso hasta este punto. Limpiar y obtener datos es el recurso compartido del trabajo en Data Science.

¿Como vas de momento? ¿Tienes un año de trabajo para estudiar?

Ni siquiera hemos llegado a los aspectos de estadística, aprendizaje automático y modelado de Data Science. En este punto, probablemente podría considerar las respuestas de William Chen sobre Data Science en Quora (¿Cómo puedo convertirme en un científico de datos?). O como estás en el tren MOOC, busca en Google “Open Source Data Science Masters”.

Básicamente, si aún no lo ha hecho, necesitará desarrollar un profundo apego por el aprendizaje. Si desea hacer ciencia de datos, es probable que esté haciendo MOOC o tipos similares de aprendizaje el resto de su vida. Y tenga en cuenta que el aprendizaje automático todavía está en sus etapas iniciales. El aprendizaje debe ser un hábito, no solo un interés.

curso:

  • Implementación de un clúster de Hadoop | Udacity

Libros:

1. Resumen y teorías

2. Uso práctico

3. Varios

Si bien me gusta bastante la especialización de Coursera, carece del aspecto comercial de la ciencia de datos. Esto está relacionado con dos aspectos fundamentales: big data y complejidad del problema.

Con esto en mente, te recomiendo que revises 3 cosas:

Kaggle : No soy un gran admirador de las cosas competitivas de aprendizaje automático, pero admito que Kaggle presenta algunos problemas interesantes y muy difíciles. La iteración es una gran parte de los problemas complejos y Kaggle puede darle una gran experiencia en eso.

Análisis de datos de Udacity Nanodegree : ¡Debería tomar este MOOC! Me parece que tiene ese ambiente de negocios. Tecnología diferente, problemas diferentes, etc.

La ciencia de datos de Coursera a escala : un par de mis colegas están haciendo esto. Parece orientado a la ciencia de datos a gran escala, que es algo vital para el currículo actual de ciencia de datos.

Por último, pero no menos importante: ¿ha considerado solicitar un puesto de analista de datos junior? Trabajar en problemas reales de la vida real podría ser un buen punto de partida.

Según el DSS de Coursera, podría ser difícil conseguir un trabajo de Data Scientist. Puede intentar obtener un trabajo de Analista de datos. Mientras esté en ese puesto de trabajo, aumente su experiencia y cartera de Data Science. Lea algunos artículos relacionados con DS.

Independientemente de los títulos de trabajo exactos, la experiencia en ciencia de datos es muy importante, útil y gratificante. Continuar aprendiendo

More Interesting

¿Big Data llegó para quedarse?

¿Qué tan buena es la colocación cooperativa para el programa de Big Data en SFU? ¿Cómo son las oportunidades de trabajo para el programa de Big Data en Vancouver para graduados de SFU?

Si quiero hacer una transición profesional de un contador fiscal a un científico de datos, ¿recomendaría uno de los campamentos de ciencia de datos o una maestría en ciencias de datos? ¿Por qué?

¿Qué son los tipos de datos abstractos?

¿Qué porcentaje del conocimiento humano global ya es accesible en internet? ¿Existe una medida para la cantidad de conocimiento cargado en la red mundial?

Pruebas A / B: ¿Es útil el diseño de una base de datos de esquema en estrella para las empresas tecnológicas que experimentan continuamente?

¿Dónde aprendo análisis de datos para un mejor trabajo?

Cómo construir y mantener una hoja de ruta de pruebas A / B

¿Cuáles son algunos buenos proyectos iniciales para alguien que está aprendiendo ciencia de datos por sí mismo?

¿Hay alguna manera de que podamos incorporar la genómica y las imágenes médicas a la ciencia de datos como postgrado?

¿Qué tecnologías admiten el análisis de Hadoop y Big Data?

¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?

Las imágenes antiguas (p. Ej., Retratos HS de los años 70) tienen una estructura de cuadrícula. ¿Cómo se podría crear este tipo de visualización gráfica mediante programación?

¿Qué tiene de diferente el desarrollo de Big Data en comparación con el desarrollo de Data Warehouse?

¿Por qué algunos gerentes de contratación en ciencia de datos todavía están colgando sobre si tienes un doctorado o no?