¿Cuál es la pregunta clave con respecto al gráfico social que solo el análisis de datos puede responder?

¿Es más o menos probable que un miembro de un grupo particular de partes interesadas (A) reciba un empate en comparación con un miembro de un grupo diferente de partes interesadas (B)?

Esta sería una pregunta muy importante para el discurso político o el trabajo sociológico.

En los primeros días del análisis de redes sociales, los sociólogos simplemente calculaban las puntuaciones de centralidad de cada grupo y luego realizaban un análisis estadístico bidireccional para medir si el grupo A tenía, en promedio, una mayor centralidad que el grupo B.

Desafortunadamente, hicieron una suposición errónea: los datos del grupo parecían independientes, pero no lo eran .

Los valores de centralidad en los gráficos sociales no satisfacen el requisito de independencia para el análisis estándar de las pruebas de varianza. Cualquier miembro del Grupo A podría estar fuertemente influenciado por los valores del Grupo B. Considere el caso de “una estrella” donde un miembro del grupo A está rodeado por miembros del Grupo B.

Además, hay tendencias conocidas sobre cómo se forman los gráficos sociales. Los apegos preferenciales, la transitividad (los amigos de los amigos también son amigos) y la mutualidad son todos elementos del gráfico social que pueden confundir las pruebas estadísticas regulares.

La solución se llama “ergm” o modelos de gráficos aleatorios exponenciales, y requieren conocimientos de análisis de datos bastante avanzados. Hay un paquete en R para llevarlo a cabo con bastante rapidez, aunque comprender el método puede ser complicado.

Básicamente, propone modelos de análisis (aristas + grupo A + grupo B + transitividad + …) y realiza miles de simulaciones de cadena de Markov para probar el grado de “ajuste” que el modelo tiene al gráfico empírico. Usando la cadena de markov monte carlo (MCMC), también puede producir coeficientes basados ​​en la probabilidad máxima de registro de que cada miembro resulte en un empate. Luego, compara ese modelo con cualquier número de modelos posibles para ver cuál se ajusta mejor.

Pasar por ergms es un ensayo en sí mismo, pero hay tutoriales que lo cubren bastante bien. Definitivamente valen la pena un vistazo.

Para algún contexto aquí, el periódico de UT Austin intentó correlacionar el sentimiento de Twitter con la venta de entradas en el mundo real para películas teatrales. Los autores utilizaron 20 reglas simples para identificar el sentimiento positivo y negativo en las publicaciones de Twitter. Este enfoque caracterizó erróneamente la gran cantidad de datos disponibles a través de la API de Twitter. Pero antes de pasar un año demostrando que un algoritmo DAN2 puede caracterizar mejor el sentimiento que la minería de reglas asociativas, quiero asegurarme de hacer la pregunta correcta. ¿Predecir la venta de entradas de cine desde Twitter es una pregunta clave? ¿Es esto lo más importante para lo que se pueden usar los datos de gráficos sociales? ¿Y serían útiles los datos de Facebook en este ejercicio predictivo?

Creo que el enfoque más natural para el análisis de Social Graph es el gráfico. En ese sentido, creo que las soluciones orientadas a gráficos pueden ser de mucho más interés en muchos campos diferentes que los enfoques de redes neuronales. La razón de esto es que existen diferentes soluciones de gestión de gráficos como la base de datos de gráficos de alto rendimiento de Sparksee (anteriormente llamada Dex), que le permiten implementar algoritmos orientados a la investigación y al valor agregado muy interesantes, y es gratis para fines de investigación. Entonces, en ese caso, puede pensar en las comunidades sociales como un problema desafiante, especialmente cuando buscamos comunidades superpuestas y su evolución en el tiempo. Consulte la página en upc.edu para obtener el algoritmo de búsqueda de comunidad no superpuesto más rápido y preciso en la actualidad.

More Interesting

¿Tenemos entrenamiento para pruebas de big data en Chennai?

¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?

¿Cuáles son las mejores herramientas de software para trabajar con grandes conjuntos de datos financieros (> 50 gb), por ejemplo, datos de acciones de CRSP?

¿Qué escuelas / programas de análisis recomendaría para aquellos con antecedentes no tecnológicos?

¿Cuál es el mejor hardware de computadora para juegos y análisis de datos?

¿Cuáles son las herramientas de minería / raspado web más comunes utilizadas actualmente?

En análisis en línea, ¿cómo se prueban 'miles de puntos de datos'?

¿Puedo duplicar los mismos datos para una tarea de clasificación en términos de aumento de datos?

¿Existe una definición de "Big" en el contexto de "Big Data"? ¿Cuál es exactamente el significado de "Big" desde el punto de vista de la ciencia de datos?

Cómo convertirse en un científico de datos como estudiante

¿Cuáles son algunas aplicaciones donde el análisis de datos topológicos tiene una ventaja sobre otros enfoques de LD?

¿Qué herramientas usan los periodistas de datos para crear visualizaciones de datos? ¿Qué características les gustan más?

Explique qué clasificación de datos se encuentra en la redacción de informes técnicos.

¿Cuál es la herramienta de big data más fácil que se puede utilizar para el aprendizaje automático?

¿Necesitamos normalizar todas las variables antes de pasar a construir modelos?