Al principio, si sabe qué tipo de sitios web está extrayendo datos, entonces el problema se enfoca mucho y es mejor resolverlo. Por ejemplo, si tiene sitios web de comercio electrónico, sitios web de hospitales, etc., puede crear modelos basados en cada uno de estos sitios.
Si tiene un requisito genérico, es posible que desee analizar todos los sitios web que agrupan los sitios web en algunos grupos y luego aplicar modelos.
Hay diferentes documentos que pueden ayudar a continuación.
- ¿Cómo manejan los datos las grandes empresas?
- ¿Puede la ciencia de datos ayudar en el dominio de la ley? ¿El sistema judicial indio adoptará / aceptará dicha herramienta, ya que este será un cambio importante?
- ¿Los científicos de datos usan Rapid Miner?
- ¿Qué tiene de diferente el desarrollo de Big Data en comparación con el desarrollo de Data Warehouse?
- ¿Qué música suelen escuchar los científicos de datos mientras trabajan?
[1] http://cs229.stanford.edu/proj2013/ZhouMashuq- WebContentExtractionThroughMachineLearning.pdf
[2] https://ijset.com/ijset/publicat…
[3] http://www.ijcaonline.org/resear…
[4] http://www2.ic.uff.br/~bazilio/c…
[5] http: //www.academicscience.co.in…
También hay herramientas como Import.io | Extraiga datos de la web, etc., que pueden ayudarlo a extraer los datos.