Los siguientes son los pasos para crear un conjunto de datos:
- Escriba un rastreador (en su idioma preferido) que pueda rastrear los sitios web y obtener los datos que desee.
- Almacene estos datos en su almacenamiento local.
- Deje que el rastreador se ejecute continuamente durante el tiempo que no tenga la cantidad de datos que desea.
- Eso es todo, ya está.
NOTA:
Tenga cuidado de leer el archivo Robots.txt y las etiquetas No-Follow del sitio web y si los sitios web han inhabilitado el rastreo de su sitio web, entonces debe respetar eso y no rastrear ese sitio web en particular.
Para hacer eso, supongamos que tiene una URL del sitio web. Lo primero que debe hacer en el rastreador es verificar el archivo robot.txt en la url y también las etiquetas de no seguir. Si no permite los robots de rastreo, abandone ese sitio web y vaya al otro.
- ¿Qué es la ciencia de datos y el análisis de big data?
- ¿Qué busca Quora en sus pasantes de Data Science?
- ¿Cuáles son las opciones de la plataforma de análisis para datos no tan grandes?
- ¿Cuáles son los beneficios de una buena gestión de datos?
- ¿Alguien puede ayudarme en qué consiste el análisis de datos y cuál es la diferencia entre este y el científico de datos?
Aquí hay algunos enlaces que pueden ayudarlo:
- Cómo construir un rastreador web básico para extraer información de un sitio web (Parte 1)
- Cómo escribir un rastreador
- ¿Cómo escribir un rastreador utilizando Java?
- ¿Cómo escribir un rastreador?
Espero que esto ayude
RJ