¿Qué tan difícil para un principiante de programación aprender tecnologías de ingeniería de datos? La tecnología cambia la vida futura

Es difícil saber dónde se encuentra en la trayectoria de aprendizaje necesaria para comprender la ingeniería de datos solo con la declaración “Python y HTML durante 3 meses”. La ingeniería de datos es difícil debido a su amplitud y profundidad combinadas más la gran velocidad a la que se expande el ecosistema de herramientas de datos de Python.

Python y HTML son un buen comienzo para tener dos piezas de un rompecabezas típico de ingeniería de datos, pero hay muchas piezas más allá de eso y el uso más típico de HTML es mostrar información en un navegador.

En el lado de la ingeniería de datos, tendrá que descomponer y comprender los datos (derivados de la fuente de datos con la que está comenzando, como HTML DOM) en un nivel mucho más profundo que simplemente mostrar HTML en el navegador.

Además, hay un gran ecosistema de herramientas y tecnologías que debe comprender para que este trabajo sea eficaz. Solo en el ámbito de Python, esto incluiría:

virtualenv
pipa
biblioteca estándar de python
pandas y herramientas relacionadas como numpy, scipy y scikit-learn
jupyter
resplandor
bokeh
al menos una base de datos: postgresql, sqlite o mongodb

Cada uno de estos es grande y complejo en sí mismo. La combinación podría ser un poco abrumadora y difícil de desenredar. Y esto es sin entrar en tecnologías de escala como las que encontraría en Amazon AWS o Google Compute Platform, y mucho menos el tipo de administración de sistemas o habilidades de desarrollo que necesitaría para implementar estas herramientas.

Si habla en serio, mi recomendación sería aprender haciendo algo como esto:

Elija un tema que le interese, digamos autos
Instalar scrapy
Cree un proyecto escaso para rastrear los sitios web de sus automóviles favoritos, elija 5–10
Cree una canalización de datos dentro de Scrapy para descomponer los elementos DOM de los datos que necesita almacenar, como el año, la marca, el modelo, el fabricante y el precio.
Almacene los elementos DOM descompuestos en una base de datos (sugiero usar un ORM para acortar la curva de aprendizaje)
Calcule el precio promedio por año, marca y fabricante utilizando pandas y una notebook jupyter
Almacenar esos agregados en la base de datos
Cree una pequeña aplicación de matraz para mostrar los datos agregados generados
Visualiza esos datos usando bokeh
¡Lucro!

Espero que puedan ver que esto es posible, pero el aprendizaje requerido es bastante grande. Sé paciente y tómate tu tiempo. Podría llevarle meses o años a un novato realizar un ejercicio como este, pero vale la pena el esfuerzo ya que cubriría los conceptos básicos que cualquier organización necesita para realizar ingeniería de datos a pequeña escala. Puedes aprender cómo hacerlo más rápido y escalar más tarde.

Solo quería darte algunos puntos de partida en tu viaje. ¡Buena suerte!

Aprender a programarCiencia de datosLenguajes de programaciónProgramación informática