Es difícil saber dónde se encuentra en la trayectoria de aprendizaje necesaria para comprender la ingeniería de datos solo con la declaración “Python y HTML durante 3 meses”. La ingeniería de datos es difícil debido a su amplitud y profundidad combinadas más la gran velocidad a la que se expande el ecosistema de herramientas de datos de Python.
Python y HTML son un buen comienzo para tener dos piezas de un rompecabezas típico de ingeniería de datos, pero hay muchas piezas más allá de eso y el uso más típico de HTML es mostrar información en un navegador.
En el lado de la ingeniería de datos, tendrá que descomponer y comprender los datos (derivados de la fuente de datos con la que está comenzando, como HTML DOM) en un nivel mucho más profundo que simplemente mostrar HTML en el navegador.
- Cómo verificar la calidad de las estadísticas de Internet y los datos de investigación que uso en mis respuestas
- ¿En qué industrias se requiere Big Data?
- Hoy en día, ¿la ciencia de datos se trata más de saber cómo usar herramientas y bibliotecas preconstruidas (de Python / R) que otra cosa?
- Ya no estoy dispuesto a ir a los Estados Unidos para obtener una maestría. ¿Dónde debería estudiar ciencia de datos y aprendizaje automático?
- ¿Cuáles son algunos proyectos que un estudiante de ciencias de la computación puede hacer en el semestre final en el campo de big data y análisis de datos?
Además, hay un gran ecosistema de herramientas y tecnologías que debe comprender para que este trabajo sea eficaz. Solo en el ámbito de Python, esto incluiría:
- virtualenv
- pipa
- biblioteca estándar de python
- pandas y herramientas relacionadas como numpy, scipy y scikit-learn
- jupyter
- resplandor
- bokeh
- al menos una base de datos: postgresql, sqlite o mongodb
Cada uno de estos es grande y complejo en sí mismo. La combinación podría ser un poco abrumadora y difícil de desenredar. Y esto es sin entrar en tecnologías de escala como las que encontraría en Amazon AWS o Google Compute Platform, y mucho menos el tipo de administración de sistemas o habilidades de desarrollo que necesitaría para implementar estas herramientas.
Si habla en serio, mi recomendación sería aprender haciendo algo como esto:
- Elija un tema que le interese, digamos autos
- Instalar scrapy
- Cree un proyecto escaso para rastrear los sitios web de sus automóviles favoritos, elija 5–10
- Cree una canalización de datos dentro de Scrapy para descomponer los elementos DOM de los datos que necesita almacenar, como el año, la marca, el modelo, el fabricante y el precio.
- Almacene los elementos DOM descompuestos en una base de datos (sugiero usar un ORM para acortar la curva de aprendizaje)
- Calcule el precio promedio por año, marca y fabricante utilizando pandas y una notebook jupyter
- Almacenar esos agregados en la base de datos
- Cree una pequeña aplicación de matraz para mostrar los datos agregados generados
- Visualiza esos datos usando bokeh
- ¡Lucro!
Espero que puedan ver que esto es posible, pero el aprendizaje requerido es bastante grande. Sé paciente y tómate tu tiempo. Podría llevarle meses o años a un novato realizar un ejercicio como este, pero vale la pena el esfuerzo ya que cubriría los conceptos básicos que cualquier organización necesita para realizar ingeniería de datos a pequeña escala. Puedes aprender cómo hacerlo más rápido y escalar más tarde.
Solo quería darte algunos puntos de partida en tu viaje. ¡Buena suerte!