¿Qué necesita aprender un ingeniero de software para ingresar a la ciencia de datos o la carrera de big data?

Un científico de datos podrá tomar un problema comercial y traducirlo a una pregunta de datos, crear modelos predictivos para responder la pregunta y contar historias sobre los hallazgos. Los estadísticos que se centran en la implementación de enfoques estadísticos de los datos, y los gerentes de datos que se centran en ejecutar equipos de ciencia de datos tienden a caer en el papel de científico de datos. Los científicos de datos son el puente entre la programación y la implementación de la ciencia de datos, la teoría de la ciencia de datos y las implicaciones comerciales de los datos.

Que aprender

Habilidades técnicas

  • Matemáticas (por ejemplo, álgebra lineal, cálculo y teoría de grafos)
  • Estadísticas (por ejemplo, pruebas de hipótesis y estadísticas resumidas)
  • Herramientas y técnicas de aprendizaje automático (p. Ej., Vecinos más cercanos, bosques aleatorios, métodos de conjunto, etc.)
  • Habilidades de ingeniería de software (por ejemplo, computación distribuida, algoritmos y estructuras de datos)
  • Minería de datos
  • Limpieza de datos y munging

Esta lista siempre está sujeta a cambios. Como sugiere Anmol Rajpurohit, “las habilidades genéricas de programación son mucho más importantes que ser expertos en un lenguaje de programación en particular”.

Habilidades para los negocios

  • Solución analítica de problemas: abordar desafíos de alto nivel con un ojo claro sobre lo que es importante; empleando el enfoque / métodos correctos para aprovechar al máximo el tiempo y los recursos humanos.
  • Comunicación efectiva: Detallando sus técnicas y descubrimientos a audiencias técnicas y no técnicas en un lenguaje que puedan entender.
  • Curiosidad intelectual: explorar nuevos territorios y encontrar formas creativas e inusuales para resolver problemas.
  • Conocimiento de la industria: Comprender la forma en que funciona la industria elegida y cómo se recopilan, analizan y utilizan los datos.

¿Cómo aprender?

Aprende la teoría:

Si pensamos en habilidades específicas para aprender en los primeros dos años de la universidad, hay dos categorías principales: a) los fundamentos de las matemáticas, incluido el cálculo multivariable y el álgebra lineal, así como cursos básicos basados ​​en pruebas yb) aprender a modelar El mundo con ecuaciones diferenciales y estadísticas.

En términos de estadísticas, muchos cursos tienden a ser un poco más aplicados, aunque, por supuesto, te animo a que profundices en la teoría.

Encuentra problemas interesantes:

Una vez que tenga la teoría baja, encuentre problemas interesantes para resolver.

Recomiendo ir a las personas que personalmente consideras interesantes y preguntarles sobre los desafíos en los que están pensando.

No es necesario, ni creo que sea aconsejable, pensar en ti mismo puramente como un “físico”, un “químico” o un “estadístico”, eso solo limita los problemas a los que nos exponemos.

Implemente las habilidades y haga el trabajo:

Para implementar sus habilidades teóricas y prácticas, encuentre un proyecto que requiera que construya modelos teóricos o basados ​​en datos (hacer ambos será mejor cualquier día).

Puede comenzar a aprender programación de computadoras en varios niveles de sofisticación, y le recomiendo que aprenda al menos la programación básica temprano. Si está interesado en la ciencia de datos en particular, vaya más en las estadísticas y la programación. Pero, de nuevo, la forma de mejorar la pieza de implementación es practicar la implementación. A medida que realiza más trabajos de programación, es posible que descubra que desea más fundamentos teóricos del Paso 1; regrese al inicio del marco y continúe mejorando.

Resuelva problemas que surjan en lugar de buscar problemas que se ajusten a su herramienta:

Nuestro valor como académico, empresario y / o líder proviene de encontrar soluciones creativas a los problemas que surgen sin preocuparse por la forma de la solución.

Claro, es bueno tener una gran bolsa de herramientas: estadísticas, simulaciones, ecuaciones diferenciales, conocimiento de problemas en múltiples disciplinas. ¡Pero descubrirá rápidamente que los problemas del mundo real no son a menudo clavos que se prestan a golpear con el martillo que se le da en el aula! Tienen complejidades y advertencias, datos faltantes, múltiples caminos de acercamiento.

Tendrá que lidiar con el difícil desafío de la toma de decisiones bajo varias restricciones: tendrá que usar su conocimiento y las herramientas actuales para construir otros hasta que se alcance una solución, y esa es la habilidad crítica para aprender.

Calificación

Las calificaciones académicas pueden ser más importantes de lo que imaginas. Como señala Burtch Works, “es increíblemente raro que alguien sin un grado cuantitativo avanzado tenga las habilidades técnicas necesarias para ser un científico de datos”.

En su informe de salario de ciencia de datos, Burtch Works determinó que el 88% de los científicos de datos tienen una maestría y el 46% tiene un doctorado. La mayoría de estos títulos son en materias rigurosas cuantitativas, técnicas o científicas, incluyendo matemática y estadística (32%), informática (19%) e ingeniería (16%).

Dicho esto, las empresas están desesperadas por candidatos con habilidades en el mundo real. Su conocimiento técnico puede superar los requisitos de grado preferido.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

  • Programa – http://www.greyatom.com/full-sta…
  • Chatee con un consejero académico: le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co…

Para un trabajo de ingeniería de datos (grande): necesita saber cómo diseñar un software que trabaje con datos, generalmente para el consumo de un científico o analista de datos. Entonces … SQL, NoSQL almacena, trabaja con / analiza XML, etc. MongoDB es popular entre NoSQL, otros también lo son. Puede diseñar, por ejemplo, algoritmos de MapReduce que los científicos de datos imaginen. Este tipo de camino probablemente puede investigarse usted mismo tan fácilmente como puedo decirle.

La ciencia de datos, lo que se llama ciencia de datos, es otra caldera de peces por completo. Necesitas conocer cantidades serias de matemáticas, estadísticas y otros métodos para resolver problemas. Tendrá que codificar, pero en un equipo grande, un científico de datos escribe el código y un desarrollador o ingeniero lo produce. El trabajo de un científico de datos se trata más de mirar datos y resolver problemas comerciales (u otros dominios) con ellos, que cualquier otra cosa.

No sé mucho sobre los que siguen la pregunta, pero para el OP, parece que la posición del tipo de ingeniería de datos (grande) sería mejor. Una vez que comprenda cómo aplicar sus ya excelentes habilidades de ingeniería a los flujos de datos, estará listo. Si, por otro lado, elige la ciencia de datos como carrera, necesita trabajar en muchas habilidades nuevas. Si tienes tiempo, genial. Una palabra de advertencia: por lo general, necesitará más que un MOOC. Mucho más, a menos que aprendas matemáticas y estadísticas de forma natural.

El pago sigue siendo grande para un ingeniero de big data, y puede ser tan grande como para un científico, y se agregará a su conjunto de habilidades y los trabajos que puede hacer con bastante facilidad. A menos que esté preparado para dedicar años probables de estudio para cambiar a un rol de ciencia de datos, debe evitar ese camino. Probablemente el tiempo que pasas en él no te beneficiará, relativamente hablando.

Big Data es una palabra de moda en estos días. Es muy confuso para un principiante. Sin embargo, como cualquier otra tecnología, la tecnología de Big Data también tiene algunos antecedentes. Primero debes comprender los fundamentos. Las grandes tecnologías de procesamiento de datos surgidas se deben principalmente a la falta de capacidad para procesar la enorme cantidad de datos con las tecnologías tradicionales de almacenamiento de datos.

Antes de lanzarse al mundo de los grandes datos, debe comprender los conceptos como la arquitectura del sistema de archivos distribuido de Hadoop llamada HDFS. Este es el lado del almacenamiento de datos. Los datos grandes (generalmente tera bytes y peta bytes de datos) se almacenarán como bloques de datos en muchos muchos nodos de datos en el clúster. Solo almacenar datos no es suficiente, necesitamos procesarlos. En el lado del procesamiento de datos, Hadoop utiliza una tecnología llamada MapReduce. Los programas de MapReduce realmente procesan los bloques de datos almacenados en HDFS y almacenan los resultados nuevamente en HDFS. Se puede escribir usando lenguajes como Java. Pero muchas otras tecnologías como PIG, Hive se desarrollan para minimizar el esfuerzo de programación para generar trabajos de MapReduce. No necesita conocer un lenguaje de programación para generar el trabajo MapReduce si conoce PIG y Hive. Spark es otra tecnología en la pila de big data que se centra principalmente en el procesamiento de datos de transmisión.

Muchas otras tecnologías como las bases de datos No-SQL también se utilizan en el procesamiento de big data. Por lo tanto, si solo desea un comienzo en las tecnologías de big data, sugeriría comenzar a aprender HDFS y MapReduce primero. No creo que necesites ningún conocimiento matemático requerido. Si desea convertirse en un científico de datos, es posible que necesite tener habilidades estadísticas y analíticas y conocimientos prácticos en el lenguaje de programación R principalmente.

La ingeniería de datos y la ciencia de datos son cosas completamente diferentes.

Ingeniería de datos (Big Data):

Estos son los tipos que se aseguran de que los datos provengan de ayb rápido, que los datos sean seguros y que su clúster cumpla con el SLA. Con JAva eres bueno, es posible que quieras agregarle habilidades de Scala y Linux. Luego puede optar por tecnologías como Hadoop y Spark.

Ciencia de los datos

Estos son los tipos que dan sentido a los datos. Son buenos en estadísticas. Puedes aprender R para esto, pero lo más importante es que debes profundizar en la inferencia estadística y el aprendizaje automático.