¿Qué tipos de patrones y fenómenos emergentes se encuentran durante el análisis de big data de las redes sociales?

Gracias por el A2A.

Tomaré como ejemplo la red social Twitter.

Existen muchos patrones diferentes que surgen del análisis de este tipo de datos. Trataré de traer aquí los más evidentes y con suerte importantes que surgen de un estudio de la universidad de Illinois en colaboración con el proveedor de datos de redes sociales GNIP. De este estudio se originó el proyecto Global Twitter Heartbeat .

Comencemos con el momento en que los usuarios de Twitter se conectan y tuitean sobre hechos y acontecimientos. Este comportamiento puede modelarse como un análisis de series de tiempo. Bueno, emerge que hay dos picos de actividad durante el día. Uno alrededor de las 8-9 en punto de la mañana y otro alrededor de las 21-22 en punto de la tarde.

Los gráficos de la izquierda son sobre los días de la semana y el derecho sobre los días de fin de semana.

Con respecto a los tweets realizados con una referencia geográfica, surgen diferentes patrones .

-Se encuentra que la proximidad geográfica juega un papel mínimo tanto con quién se comunican los usuarios como con qué se comunican

-La geografía desempeña un pequeño papel en la ubicación de los usuarios influyentes, ya que el volumen de retweets simplemente es un factor de la población total de tweets que se originan en esa ciudad. La distancia promedio entre un par de usuarios de Twitter conectados es de 600 millas.

-El uso global de Twitter se correlaciona con la urbanización y el consumo de energía. Esto significa que Twitter depende de la misma infraestructura eléctrica y de red que otros medios de Internet y, por lo tanto, tiene dificultades para penetrar en las zonas rurales.

Los idiomas utilizados:

-Las noticias en idioma inglés son solo una pequeña porción de enlaces, que representan solo el 7.8% de todos los enlaces, mientras que el 3.6% de los enlaces de tweets geocodificados y el 0.8% de los tweets georreferenciados. A diferencia del conjunto más amplio de todos los dominios, los tweets georreferenciados, los tweets geocodificados y los tweets no geográficos tienen los mismos cuatro dominios de noticias principales, como BBC, CNN, The Guardian, etc., con noticias nacionales e internacionales.

-Los usuarios de Twitter tienden a confiar en un solo cliente de Twitter y habilitar o deshabilitar su configuración de geolocalización en lugar de alternar entre las dos opciones. La identificación de la ubicación aumenta a lo largo del día, alcanzando su punto máximo alrededor de las 4 p.m.EST (1 p.m. PST) y bajando a sus niveles más bajos alrededor de las 9 a.m. EST (6 a.m. PST).

-Las principales ciudades georeferenciadas son Yakarta, Nueva York, Sao Paulo y Kuala Lumpur. Houston (no. 13) y Dallas (no. 16) están entre los 20 primeros, con San Antonio en el no. 42. Los investigadores encontraron que solo 2.17% de los tweets escritos en inglés incluyen datos de geolocalización.

-Los residentes de la mayoría de los países hablan un solo idioma, pero hay algunas excepciones, como Hungría y Serbia. En cuanto a las poblaciones de habla inglesa y francesa de África, residen principalmente en diferentes regiones. Los tweets de los Estados Unidos están principalmente en inglés, pero los datos muestran grupos de otros idiomas en todo el país, especialmente en el Medio Oeste.

-La ley de Pareto es evidente en las estadísticas. El contenido de Twitter es generado por un pequeño número de usuarios. El 15% superior de los usuarios representa el 85% de todos los tweets, mientras que el 1% superior de los usuarios, o aproximadamente 720,000 usuarios, producen el 20% de todos los tweets. Alrededor del 25% de los usuarios durante el período de estudio tuiteó solo una vez, mientras que la mitad tuiteó entre una y cuatro veces.

-En cuanto al texto, el tweet promedio consta de 9.4 palabras y 74 caracteres.

Finalmente, quiero decir que también hay otros estudios diferentes en otras redes sociales, pero me gustó este ya que se realiza a gran escala. Más del 10% de todos los tweets en todo el mundo se analizan durante un período de 39 días.