Cómo analizar páginas web a través de enlaces de Twitter

Por lo que entiendo, está buscando construir un rastreador web que rastree Twitter para buscar enlaces. Si diseña un rastreador básico, puede hacer que busque cadenas que comiencen con “http” o que dependan de la fuente de la página (haga un ‘Inspeccionar elemento’ en un tweet y vea si un enlace está encapsulado en un ‘ ‘. Twitter probablemente usaría algunas propiedades de java-script para que la representación pueda ser diferente) puedes pescar los enlaces.

No es posible clasificar páginas web basadas solo en URL. Por lo tanto, tendrá que abrir el enlace que extrae y escanear la fuente de la página en busca de su contenido. Luego, según el contenido de la página, puede clasificarlos. Puede usar el análisis semántico latente, el análisis de sentimientos, las técnicas de agrupamiento o ver si el análisis de componentes independientes es de ayuda. También echa un vistazo a tf-idf. Solo para la clasificación, esta lista es infinitamente contable (exageración obvia).

Dependiendo de su aplicación, hay todo tipo de técnicas en la literatura que se pueden utilizar. Navega por internet y lee mucho. Si aún persisten las dudas, por supuesto, ¡Quora siempre está ahí!

Mira esto, puede ser de ayuda.
Introducción a la informática

Related Content

¿Cuáles son algunas formas de evitar la maldición de la dimensionalidad?

¿Cuáles son las nuevas modificaciones en las redes neuronales recurrentes cuando se considera el aprendizaje profundo?

¿Por qué se usaría H2O.ai sobre la herramienta de aprendizaje automático scikit-learn?

¿Por qué la similitud entre palabras generalmente se calcula a través del coseno métrico, no euclidiano?

¿Cuál es la mejor manera de aprender la optimización numérica para el aprendizaje automático y el aprendizaje profundo?

Cómo chatear con Eugene Goostman, el bot que pasó la prueba de Turing

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?

Debe programar un rastreador web o un bot web para recopilar los datos.

Prueba este enlace:
Los 50 principales rastreadores web de código abierto para la minería de datos “Big Data Made Simple

Neeratyoy Mallik

¿Cuáles son los criterios para clasificar las páginas web? Tendrá que recopilar algo de esas páginas, por lo que tendrá que tener un proceso mediante el cual visite la página y descargue lo que desee. El bit que desee y lo que haga dependerá de sus criterios.

Nigel Legg

More Interesting

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?

¿Debo usar un cursor o usar el paquete R directamente?

Cómo descargar el conjunto de datos para el resumen de texto extractivo

¿Aprendizaje automático en una caja negra / prueba de conocimiento cero?

¿Cómo decidimos qué algoritmo usar en el aprendizaje automático?

¿Cómo debo saber que estoy interesado en el aprendizaje automático?

¿Cómo implementaría el servicio de noticias de Quora?

¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?

¿Cuál es el papel de la descomposición de Cholesky en la búsqueda de PDF normal multivariante?

¿Cómo es posible combinar el desarrollo web con el aprendizaje automático?

¿Por qué el algoritmo AdaBoost es sensible a datos ruidosos y valores atípicos? ¿Y cómo?

¿Cuál es el potencial de las redes neuronales en la compresión de datos?

¿Debo aplicar PCA antes o después de la selección de funciones?

¿Cuánto Python necesito saber para completar un nanogrado de aprendizaje automático de Udacity?

¿Cuándo debo aprender tensorflow?

Web Analytics