Mucha gente me pregunta: ¿cómo me convierto en un científico de datos? Creo que la respuesta corta es: como con cualquier rol técnico, no es necesariamente fácil o rápido, pero si eres inteligente, comprometido y dispuesto a invertir en aprendizaje y experimentación, entonces, por supuesto, puedes hacerlo.
Desarrolladores de Java
Si eres un desarrollador de Java, estás familiarizado con los principios de ingeniería de software y prosperas en la creación de sistemas de software que realizan tareas complejas. La ciencia de datos se trata de construir “productos de datos”, esencialmente sistemas de software basados en datos y algoritmos.
DESARROLLADORES DE PITÓN
Si es un desarrollador de Python, está familiarizado con el desarrollo de software y las secuencias de comandos, y es posible que ya haya utilizado algunas bibliotecas de Python que a menudo se usan en ciencia de datos, como NumPy y SciPy.
Python tiene un gran soporte para aplicaciones de ciencia de datos, especialmente con bibliotecas como NumPy / Scipy, Pandas, Scikit-learn, IPython para análisis exploratorio y Matplotlib para visualizaciones.
Para lidiar con grandes conjuntos de datos, obtenga más información sobre Hadoop y su integración con Python a través de la transmisión.
ESTADÍSTICOS Y CIENTÍFICOS APLICADOS
Si proviene de un entorno de estadísticas o de aprendizaje automático, es probable que ya haya utilizado herramientas como R, Matlab o SAS durante años para realizar análisis de regresión, análisis de agrupamiento, clasificación o tareas similares de aprendizaje automático.
R, Matlab y SAS son herramientas sorprendentes para el análisis estadístico y la visualización, con implementaciones maduras para muchos algoritmos de aprendizaje automático.
Sin embargo, estas herramientas generalmente se usan para la exploración de datos y el desarrollo de modelos, y rara vez se usan de forma aislada para crear productos de datos de grado de producción. En la mayoría de los casos, debe mezclar varios otros componentes de software como Java o Python e integrarlos con plataformas de datos como Hadoop, al crear productos de datos de extremo a extremo.
ANALISTAS DE NEGOCIOS
Si su experiencia es SQL, ha estado utilizando datos durante muchos años y comprende completamente cómo utilizar los datos para obtener información comercial. Es probable que el uso de Hive, que le brinda acceso a grandes conjuntos de datos en Hadoop con primitivas SQL familiares, sea un primer paso fácil para usted en el mundo de los grandes datos.
La ciencia de datos a menudo implica el desarrollo de productos de datos que utilizan aprendizaje automático y estadísticas a un nivel que SQL no puede describir bien o implementar de manera eficiente. Por lo tanto, el siguiente paso importante hacia la ciencia de datos es comprender este tipo de algoritmos (como motores de recomendación, árboles de decisión, PNL) a un nivel teórico más profundo, y familiarizarse con las implementaciones actuales de herramientas como Mahout, WEKA o Scikit de Python. -aprender.
DESARROLLADORES DE HADOOP
Si es desarrollador de Hadoop, ya conoce las complejidades de los grandes conjuntos de datos y la informática en clúster. Probablemente también esté familiarizado con Pig, Hive y HBase y probablemente tenga experiencia en Java.
Un buen primer paso es obtener una comprensión profunda del aprendizaje automático y las estadísticas, y cómo estos algoritmos se pueden implementar de manera eficiente para grandes conjuntos de datos. Un buen primer lugar para buscar es Mahout, que implementa muchos de estos algoritmos sobre Hadoop.
Otra área a considerar es la “limpieza de datos”. Muchos algoritmos asumen una cierta estructura básica para los datos antes de que comience el modelado. Desafortunadamente, en la vida real, los datos están bastante “sucios” y prepararlos para el modelado tiende a ocupar una gran parte del trabajo en ciencia de datos. Hadoop es a menudo una herramienta de elección para la limpieza y preprocesamiento de datos a gran escala, antes del modelado.
PENSAMIENTOS FINALES
Aplicación de la vida real: el camino hacia la ciencia de datos no es un paseo por el parque. Tienes que aprender muchas disciplinas nuevas, lenguajes de programación y, lo más importante, adquirir experiencia en el mundo real. Esto requiere tiempo, esfuerzo y una inversión personal. Pero lo que encuentras al final del camino es bastante gratificante.
Recursos: hay muchos recursos que pueden resultarle útiles: libros, capacitación y presentaciones. Puede encontrar a Cloudera útil para dicho entrenamiento.
Asistencia: una excelente manera de comenzar con los problemas del mundo real y la capacitación para todas las habilidades anteriores es observar lo que el mundo entero está hablando sobre Data Science and Analytics; desde las últimas tendencias hasta los ámbitos profesionales. Consulte este enlace para explorar el mundo de la analítica. Aprenda y explore análisis por Jigsaw Academy