Cómo analizar páginas web a través de enlaces de Twitter

Por lo que entiendo, está buscando construir un rastreador web que rastree Twitter para buscar enlaces. Si diseña un rastreador básico, puede hacer que busque cadenas que comiencen con “http” o que dependan de la fuente de la página (haga un ‘Inspeccionar elemento’ en un tweet y vea si un enlace está encapsulado en un ‘ ‘. Twitter probablemente usaría algunas propiedades de java-script para que la representación pueda ser diferente) puedes pescar los enlaces.

No es posible clasificar páginas web basadas solo en URL. Por lo tanto, tendrá que abrir el enlace que extrae y escanear la fuente de la página en busca de su contenido. Luego, según el contenido de la página, puede clasificarlos. Puede usar el análisis semántico latente, el análisis de sentimientos, las técnicas de agrupamiento o ver si el análisis de componentes independientes es de ayuda. También echa un vistazo a tf-idf. Solo para la clasificación, esta lista es infinitamente contable (exageración obvia).

Dependiendo de su aplicación, hay todo tipo de técnicas en la literatura que se pueden utilizar. Navega por internet y lee mucho. Si aún persisten las dudas, por supuesto, ¡Quora siempre está ahí!

Mira esto, puede ser de ayuda.
Introducción a la informática

Debe programar un rastreador web o un bot web para recopilar los datos.

Prueba este enlace:
Los 50 principales rastreadores web de código abierto para la minería de datos “Big Data Made Simple

¿Cuáles son los criterios para clasificar las páginas web? Tendrá que recopilar algo de esas páginas, por lo que tendrá que tener un proceso mediante el cual visite la página y descargue lo que desee. El bit que desee y lo que haga dependerá de sus criterios.