La respuesta de Paul DeVos cubrió muchos puntos importantes sobre cómo convertirse en un Científico de Datos.
El consejo más importante que puedo ofrecer como profesional de Ciencias de la Información / Ingeniería es aprender bien las estadísticas. A menudo, el impacto de las iniciativas de big data y data science se puede amplificar en las organizaciones, si los científicos de datos tienen una buena comprensión de las estadísticas que subyacen a muchos de los conceptos e ideas de la ciencia de datos. Esto incluiría una buena comprensión de las estadísticas básicas e inferenciales, y los antecedentes estadísticos de métodos avanzados como el aprendizaje automático (clasificación y agrupamiento).
Además de esto, los bits que Paul trajo, especialmente los aspectos de Ingeniería de Datos, son igualmente importantes. Como profesional de la ciencia de datos, también es importante comprender bien los casos de uso del cliente. Todos los análisis de datos en el mundo no ayudarán si no comprende el escenario de la industria y el caso de uso para el que se requiere el análisis de datos, y esto requiere experiencia comercial de algún tipo. Sugeriría adquirir experiencia en una compañía que es conocida por apoyar la ciencia de datos y las iniciativas de big data como parte del proceso de toma de decisiones. Dejando a un lado otras consideraciones sobre la organización, la experiencia práctica en el manejo de datos y el conocimiento de los desafíos de la toma de decisiones con datos definitivamente ayudarán. Este tipo de perspectivas solo se pueden obtener cuando se trabaja en una organización que recopila, analiza y utiliza datos para una buena toma de decisiones.
- ¿Cuántos datos necesito para entrenar a un chatbot?
- ¿Cómo obtengo un trabajo de análisis orientado a datos en LinkedIn u otra empresa enfocada en análisis sin muchos antecedentes en matemáticas, estadísticas o disputas de datos?
- En la era de Big Data, ¿cómo elegimos información efectiva?
- Big data es utilizado por los científicos de datos. ¿Quién traduce esta información para que la gerencia mejore o desarrolle estrategias de gestión y operaciones?
- ¿Cuáles son las características en la minería de opinión?
Una tercera cosa es adquirir competencia en programación en lenguajes aliados. Un lenguaje de programación estructurado, como C es valioso. Otros lenguajes OOP que vale la pena aprender, dada la prevalencia de Apache Hadoop, son Java y Python. Aunque puede interactuar con Pig y Hive a través de diferentes marcos, conocer estos idiomas ayuda. Una gran cantidad de profesionales de Data Science dedican tiempo a dominar varios idiomas y, en mi opinión, esto no es realmente productivo. Ayuda a conocer un idioma realmente bien, y tal vez esto sea R para los científicos de datos. Dicho esto, vale la pena considerar Python debido a su velocidad, bibliotecas que le permiten desarrollar productos de datos en Python, y más.
Recursos adicionales que quizás desee ver:
- Ciencia de datos ejecutivos (JHU) en Coursera.org
- Business Analytics (UPenn) en Coursera.org
- Libros de Leanpub sobre diversos temas de ciencia de datos, por los profesores de JHU (Roger Peng, Jeff Leek, Brian Caffo)
- Introducción al aprendizaje estadístico (curso en línea de Stanford, con un excelente libro, de los profesores Hastie y Tibshirani en Stanford)
- También recomendaría la librería O’Reilly: hay excelentes libros sobre Data Science, Hadoop Big Data Architecture, programación R y Python