Cómo crear un gran conjunto de datos a partir de los datos del sitio web

Los siguientes son los pasos para crear un conjunto de datos:

  1. Escriba un rastreador (en su idioma preferido) que pueda rastrear los sitios web y obtener los datos que desee.
  2. Almacene estos datos en su almacenamiento local.
  3. Deje que el rastreador se ejecute continuamente durante el tiempo que no tenga la cantidad de datos que desea.
  4. Eso es todo, ya está.

NOTA:
Tenga cuidado de leer el archivo Robots.txt y las etiquetas No-Follow del sitio web y si los sitios web han inhabilitado el rastreo de su sitio web, entonces debe respetar eso y no rastrear ese sitio web en particular.

Para hacer eso, supongamos que tiene una URL del sitio web. Lo primero que debe hacer en el rastreador es verificar el archivo robot.txt en la url y también las etiquetas de no seguir. Si no permite los robots de rastreo, abandone ese sitio web y vaya al otro.

Aquí hay algunos enlaces que pueden ayudarlo:

  • Cómo construir un rastreador web básico para extraer información de un sitio web (Parte 1)
  • Cómo escribir un rastreador
  • ¿Cómo escribir un rastreador utilizando Java?
  • ¿Cómo escribir un rastreador?

Espero que esto ayude
RJ

Deberá utilizar un desguace web como BeautifulSoup.

La forma en que funciona es que primero debe inspeccionar la estructura HTML de la página web.

La página web debe tener algunas etiquetas diferentes, como tr, td, table, div, etc.).
Por lo tanto, debe comprender cómo se presentan los datos allí.

Luego, básicamente, carga todo el script de origen HTML en una cadena de Python. BeautifulSoup puede analizarlo y comprender sus etiquetas.

Deberá aplicar algunas iteraciones sobre las etiquetas, almacenarlas en listas y exportar los datos a un CSV utilizando una biblioteca como pandas.

Aquí hay un tutorial para hacer todo eso: primer raspador web

Necesitará una configuración similar a esta:

web crawler + web scrapper + una forma de transformar a csv, json, etc. + almacenamiento

Además de un programador de tareas para ejecutarlo periódicamente.

More Interesting

Al hacer una prueba A / B sobre la tasa de conversión (proporción de visitas que incluyen una compra), ¿cómo abordo el hecho de que no todas las visitas son independientes?

¿Están sobrevaloradas las estimaciones de la escasez de científicos de datos? La inversión en herramientas y productos de big data está en aumento, al igual que los institutos que ofrecen títulos en Big Data / Data Science. ¿La inversión y el desarrollo de infraestructura significarán una disminución en el empleo?

¿Cuáles son los mejores recursos gratuitos para nuevos desarrollos en aprendizaje automático y ciencia de datos?

¿En qué casos no podemos aplicar el análisis de datos (ordinarios) y tenemos que usar el análisis de datos topológicos? ¿Podrías dar un ejemplo concreto? ¡Gracias!

¿Cuáles son algunos usos de big data? ¿Por qué debería aprenderlo en lugar de SQL?

¿Cuáles son algunas heurísticas de visualización de datos?

¿Cuáles son los alcances después de aprender Big Data Analytics?

¿Puedo convertirme en un analista de datos sin una calificación en estadística o matemáticas como especialidad?

¿Cuál es la mejor computadora portátil Big Data?

¿En qué tecnología el crecimiento es mayor si necesitamos elegir uno de JAVA y BIG DATA?

¿Por qué los datos toman espacio? ¿Hay alguna forma de comprimir todos los datos del mundo en 1 megabyte de espacio?

¿Cuáles son los procesos involucrados en el Servicio de refinamiento de datos?

¿Es imprescindible para usted ser un programador ávido si su enfoque se centra principalmente en el aprendizaje automático / análisis de datos / análisis empresarial e inteligencia?

¿Qué empresas de TI en India contratan para desarrolladores de Big Data / Hadoop?

Como científico de datos, ¿es útil una clase de análisis de algoritmos?