¿Debo eliminar las URL cuando hago el preprocesamiento para un análisis de sentimientos de Twitter?

No tengo una gran experiencia en el tema (una vez que analicé los tweets cuando participé en algunos MOOC de análisis de datos, pero fue en el nivel del sentimiento económico, lea el dinero …). Sin embargo…

… si la url es algo así (https: //http://t.co/ sZ10tgQI5i, aquí dividida para evitar la redirección) que señala ¿Qué sucedió mientras el LHC durmió durante el invierno? tal vez deberías al menos analizar la información en el título de la página de destino (dormir e invierno tienen algo de peso en los sentimientos …)

Eventualmente, podría analizar toda la página de destino si es una especie de noticia o una entrada de blog. Por ejemplo, si procesa un tweet sobre el amor o la depresión, o sobre la pérdida de su mascota recientemente muerta, y el tweet es principalmente un enlace a alguna página relacionada (por ejemplo, “Querido conejito esponjoso perdido: http: // …”) , debe analizar la página de destino si desea obtener información sobre los sentimientos.

Pero eso requiere más tiempo y esfuerzo, por supuesto …

Definitivamente elimine las URL individuales, ya que tienden a tener una ocurrencia tan baja individualmente.

Aunque si elimina el token por completo, pierde una característica valiosa: la presencia de URL.

Reemplazaría todas las URL con un solo símbolo o token.

Sí, reemplácelos con una constante como la URL en sus tweets procesados, pero mantenga una copia de su tweet original.