Por lo que entiendo, está buscando construir un rastreador web que rastree Twitter para buscar enlaces. Si diseña un rastreador básico, puede hacer que busque cadenas que comiencen con “http” o que dependan de la fuente de la página (haga un ‘Inspeccionar elemento’ en un tweet y vea si un enlace está encapsulado en un ‘ ‘. Twitter probablemente usaría algunas propiedades de java-script para que la representación pueda ser diferente) puedes pescar los enlaces.
No es posible clasificar páginas web basadas solo en URL. Por lo tanto, tendrá que abrir el enlace que extrae y escanear la fuente de la página en busca de su contenido. Luego, según el contenido de la página, puede clasificarlos. Puede usar el análisis semántico latente, el análisis de sentimientos, las técnicas de agrupamiento o ver si el análisis de componentes independientes es de ayuda. También echa un vistazo a tf-idf. Solo para la clasificación, esta lista es infinitamente contable (exageración obvia).
Dependiendo de su aplicación, hay todo tipo de técnicas en la literatura que se pueden utilizar. Navega por internet y lee mucho. Si aún persisten las dudas, por supuesto, ¡Quora siempre está ahí!
- ¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?
- ¿Cómo funciona la función predict () en R?
- En la mayoría de los entrenamientos de precisión de CNN, ¿por qué la precisión de validación no aumenta suavemente en lugar de con tantas ondas?
- ¿Qué sucede cuando los conjuntos de datos de entrenamiento y los conjuntos de datos de prueba son los mismos en un proyecto de aprendizaje automático?
- ¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?
Mira esto, puede ser de ayuda.
Introducción a la informática