¿Debo eliminar las URL cuando hago el preprocesamiento para un análisis de sentimientos de Twitter?

No tengo una gran experiencia en el tema (una vez que analicé los tweets cuando participé en algunos MOOC de análisis de datos, pero fue en el nivel del sentimiento económico, lea el dinero …). Sin embargo…

… si la url es algo así (https: //http://t.co/ sZ10tgQI5i, aquí dividida para evitar la redirección) que señala ¿Qué sucedió mientras el LHC durmió durante el invierno? tal vez deberías al menos analizar la información en el título de la página de destino (dormir e invierno tienen algo de peso en los sentimientos …)

Eventualmente, podría analizar toda la página de destino si es una especie de noticia o una entrada de blog. Por ejemplo, si procesa un tweet sobre el amor o la depresión, o sobre la pérdida de su mascota recientemente muerta, y el tweet es principalmente un enlace a alguna página relacionada (por ejemplo, “Querido conejito esponjoso perdido: http: // …”) , debe analizar la página de destino si desea obtener información sobre los sentimientos.

Pero eso requiere más tiempo y esfuerzo, por supuesto …

análisis de sentimientosAprendizaje automáticoProcesamiento del lenguaje naturalTwitter

Related Content

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Por qué el aprendizaje profundo no tiene un mínimo local?

¿Debo aprender el aprendizaje automático para IoT?

¿Qué es incrustar | espacio incrustado | ¿Incorporación de características en arquitecturas neurales profundas?

Cómo aplicar en la práctica PCA a la agrupación de trayectorias

¿Cómo modifica una red neuronal su peso sin entrar en un efecto de ping-pong?

¿Qué DSLR debo comprar por debajo de 30k?

Definitivamente elimine las URL individuales, ya que tienden a tener una ocurrencia tan baja individualmente.

Aunque si elimina el token por completo, pierde una característica valiosa: la presencia de URL.

Reemplazaría todas las URL con un solo símbolo o token.

Jose Soares Augusto

Sí, reemplácelos con una constante como la URL en sus tweets procesados, pero mantenga una copia de su tweet original.

Jose Soares Augusto

More Interesting

¿En qué conjuntos de datos se formó el Sistema de traducción automática neuronal (GNMT) de Google?

¿Qué opinas sobre el software de gestión del tiempo AI?

Como principiante en el procesamiento del lenguaje natural, ¿desde dónde debo comenzar?

¿Qué es el proceso de procesamiento del lenguaje natural?

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?

Cómo usar big integer en C ++

¿Cuál es la diferencia entre aprendizaje gradual y aprendizaje de refuerzo?

Visión por computadora: ¿Existe un servicio que, dada una imagen, le dice lo que representa?

¿Cuál es la diferencia entre la anotación automática de imágenes y la recuperación de imágenes?

¿Cuándo se ajusta bien un modelo de mezcla gaussiana?

¿Por qué no estamos usando el coeficiente beta como una selección de características?

Todos dicen que el aprendizaje automático ocupará trabajos de un gran no. de personas, ¿es esto cierto? ¿Hay algún lado positivo?

Cómo justificar el rendimiento de un modelo de aprendizaje profundo personalizado (CNN)

¿Cómo validaría un modelo que creó para generar un modelo predictivo de una variable de resultado cuantitativa mediante regresión múltiple?

Web Analytics