¿Qué tan difícil para un principiante de programación aprender tecnologías de ingeniería de datos?

Es difícil saber dónde se encuentra en la trayectoria de aprendizaje necesaria para comprender la ingeniería de datos solo con la declaración “Python y HTML durante 3 meses”. La ingeniería de datos es difícil debido a su amplitud y profundidad combinadas más la gran velocidad a la que se expande el ecosistema de herramientas de datos de Python.

Python y HTML son un buen comienzo para tener dos piezas de un rompecabezas típico de ingeniería de datos, pero hay muchas piezas más allá de eso y el uso más típico de HTML es mostrar información en un navegador.

En el lado de la ingeniería de datos, tendrá que descomponer y comprender los datos (derivados de la fuente de datos con la que está comenzando, como HTML DOM) en un nivel mucho más profundo que simplemente mostrar HTML en el navegador.

Además, hay un gran ecosistema de herramientas y tecnologías que debe comprender para que este trabajo sea eficaz. Solo en el ámbito de Python, esto incluiría:

  1. virtualenv
  2. pipa
  3. biblioteca estándar de python
  4. pandas y herramientas relacionadas como numpy, scipy y scikit-learn
  5. jupyter
  6. resplandor
  7. bokeh
  8. al menos una base de datos: postgresql, sqlite o mongodb

Cada uno de estos es grande y complejo en sí mismo. La combinación podría ser un poco abrumadora y difícil de desenredar. Y esto es sin entrar en tecnologías de escala como las que encontraría en Amazon AWS o Google Compute Platform, y mucho menos el tipo de administración de sistemas o habilidades de desarrollo que necesitaría para implementar estas herramientas.

Si habla en serio, mi recomendación sería aprender haciendo algo como esto:

  1. Elija un tema que le interese, digamos autos
  2. Instalar scrapy
  3. Cree un proyecto escaso para rastrear los sitios web de sus automóviles favoritos, elija 5–10
  4. Cree una canalización de datos dentro de Scrapy para descomponer los elementos DOM de los datos que necesita almacenar, como el año, la marca, el modelo, el fabricante y el precio.
  5. Almacene los elementos DOM descompuestos en una base de datos (sugiero usar un ORM para acortar la curva de aprendizaje)
  6. Calcule el precio promedio por año, marca y fabricante utilizando pandas y una notebook jupyter
  7. Almacenar esos agregados en la base de datos
  8. Cree una pequeña aplicación de matraz para mostrar los datos agregados generados
  9. Visualiza esos datos usando bokeh
  10. ¡Lucro!

Espero que puedan ver que esto es posible, pero el aprendizaje requerido es bastante grande. Sé paciente y tómate tu tiempo. Podría llevarle meses o años a un novato realizar un ejercicio como este, pero vale la pena el esfuerzo ya que cubriría los conceptos básicos que cualquier organización necesita para realizar ingeniería de datos a pequeña escala. Puedes aprender cómo hacerlo más rápido y escalar más tarde.

Solo quería darte algunos puntos de partida en tu viaje. ¡Buena suerte!

Lamento decir eso, pero Python y HTML son algo así como detalles / adaptaciones de automóviles, y la ingeniería de datos es como diseñar el motor de combustión interna.

Nunca digo que no puede convertirse en un ingeniero de datos, pero necesitará conocimientos y habilidades completamente diferentes. Necesita aprender los sistemas operativos, los sistemas de archivos de red, la base de datos relacional, las bases de datos no relacionales, el manejo de eventos complejos, el modelado abstracto, la agrupación en red y muchas matemáticas.

Si realmente quieres convertirte en un ingeniero de datos, será mejor que comiences a partir de ahora.