¿Cuál es la pregunta clave con respecto al gráfico social que solo el análisis de datos puede responder?

¿Es más o menos probable que un miembro de un grupo particular de partes interesadas (A) reciba un empate en comparación con un miembro de un grupo diferente de partes interesadas (B)?

Esta sería una pregunta muy importante para el discurso político o el trabajo sociológico.

En los primeros días del análisis de redes sociales, los sociólogos simplemente calculaban las puntuaciones de centralidad de cada grupo y luego realizaban un análisis estadístico bidireccional para medir si el grupo A tenía, en promedio, una mayor centralidad que el grupo B.

Desafortunadamente, hicieron una suposición errónea: los datos del grupo parecían independientes, pero no lo eran .

Los valores de centralidad en los gráficos sociales no satisfacen el requisito de independencia para el análisis estándar de las pruebas de varianza. Cualquier miembro del Grupo A podría estar fuertemente influenciado por los valores del Grupo B. Considere el caso de “una estrella” donde un miembro del grupo A está rodeado por miembros del Grupo B.

Además, hay tendencias conocidas sobre cómo se forman los gráficos sociales. Los apegos preferenciales, la transitividad (los amigos de los amigos también son amigos) y la mutualidad son todos elementos del gráfico social que pueden confundir las pruebas estadísticas regulares.

La solución se llama “ergm” o modelos de gráficos aleatorios exponenciales, y requieren conocimientos de análisis de datos bastante avanzados. Hay un paquete en R para llevarlo a cabo con bastante rapidez, aunque comprender el método puede ser complicado.

Básicamente, propone modelos de análisis (aristas + grupo A + grupo B + transitividad + …) y realiza miles de simulaciones de cadena de Markov para probar el grado de “ajuste” que el modelo tiene al gráfico empírico. Usando la cadena de markov monte carlo (MCMC), también puede producir coeficientes basados en la probabilidad máxima de registro de que cada miembro resulte en un empate. Luego, compara ese modelo con cualquier número de modelos posibles para ver cuál se ajusta mejor.

Pasar por ergms es un ensayo en sí mismo, pero hay tutoriales que lo cubren bastante bien. Definitivamente valen la pena un vistazo.

Análisis de datosCiencia de datosGráficosMinería de datosProgramación informáticaRedes sociales en líneateoría de

¿Hay alguna reunión de ciencia de datos en Chennai, India?

¿Cuál es la mejor manera de obtener consistentemente solo el texto / artículo principal de un sitio como The Verge o Forbes con Beautiful Soup y Python?

¿Qué clases debo tomar en Princeton si quiero ser un científico de datos?

¿Qué herramientas e idiomas necesito saber para convertirme en un científico de datos en el futuro?

¿Cómo obtengo un trabajo de análisis orientado a datos en LinkedIn u otra empresa enfocada en análisis sin muchos antecedentes en matemáticas, estadísticas o disputas de datos?

¿Cuál es una estrategia típica para presentar solicitudes de patentes de software en todo el mundo?

Para algún contexto aquí, el periódico de UT Austin intentó correlacionar el sentimiento de Twitter con la venta de entradas en el mundo real para películas teatrales. Los autores utilizaron 20 reglas simples para identificar el sentimiento positivo y negativo en las publicaciones de Twitter. Este enfoque caracterizó erróneamente la gran cantidad de datos disponibles a través de la API de Twitter. Pero antes de pasar un año demostrando que un algoritmo DAN2 puede caracterizar mejor el sentimiento que la minería de reglas asociativas, quiero asegurarme de hacer la pregunta correcta. ¿Predecir la venta de entradas de cine desde Twitter es una pregunta clave? ¿Es esto lo más importante para lo que se pueden usar los datos de gráficos sociales? ¿Y serían útiles los datos de Facebook en este ejercicio predictivo?

Ryan Deschamps

Creo que el enfoque más natural para el análisis de Social Graph es el gráfico. En ese sentido, creo que las soluciones orientadas a gráficos pueden ser de mucho más interés en muchos campos diferentes que los enfoques de redes neuronales. La razón de esto es que existen diferentes soluciones de gestión de gráficos como la base de datos de gráficos de alto rendimiento de Sparksee (anteriormente llamada Dex), que le permiten implementar algoritmos orientados a la investigación y al valor agregado muy interesantes, y es gratis para fines de investigación. Entonces, en ese caso, puede pensar en las comunidades sociales como un problema desafiante, especialmente cuando buscamos comunidades superpuestas y su evolución en el tiempo. Consulte la página en upc.edu para obtener el algoritmo de búsqueda de comunidad no superpuesto más rápido y preciso en la actualidad.

Ryan Deschamps

More Interesting

¿Tenemos entrenamiento para pruebas de big data en Chennai?

¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?

¿Cuáles son las mejores herramientas de software para trabajar con grandes conjuntos de datos financieros (> 50 gb), por ejemplo, datos de acciones de CRSP?

¿Qué escuelas / programas de análisis recomendaría para aquellos con antecedentes no tecnológicos?

¿Cuál es el mejor hardware de computadora para juegos y análisis de datos?

¿Cuáles son las herramientas de minería / raspado web más comunes utilizadas actualmente?

En análisis en línea, ¿cómo se prueban 'miles de puntos de datos'?

¿Puedo duplicar los mismos datos para una tarea de clasificación en términos de aumento de datos?

¿Existe una definición de "Big" en el contexto de "Big Data"? ¿Cuál es exactamente el significado de "Big" desde el punto de vista de la ciencia de datos?

Cómo convertirse en un científico de datos como estudiante