Ha habido varios enfoques para esta idea de extraer información significativa de los datos textuales disponibles en las redes sociales. Para hacer esto se necesita un poco de comprensión del procesamiento y la probabilidad del lenguaje natural.
Mi enfoque favorito es el que ha seguido en este documento la profesora Regina Barzilay del MIT que se puede encontrar aquí: Página sobre Mit. Siguieron este enfoque para extraer registros de eventos de tweets. Para escalarlo a Facebook, se deben realizar algunos cambios significativos, ya que las personas tienden a ser más detalladas en Facebook debido a la ausencia de cualquier forma de limitación en el número de caracteres.
Los tweets se modelan como Gráficos de factores (Gráfico de factores). Cada tweet se ha modelado como un registro y cada palabra se ha modelado como un token en ese registro. Cada token puede ser un token importante (un nodo de factor) o un token no importante (nodo normal). En función de los datos de entrenamiento disponibles, el algoritmo puede detectar si un token dado es o no un factor de nodo con una cierta probabilidad.
- Cómo resolver errores de E / S de Linux sin reiniciar
- ¿Cómo pasar de Data Science a Big Data? ¿Alguien puede darme un cronograma gradual para aprender Big Data?
- ¿Cómo se relaciona la minería de datos con la inteligencia artificial?
- En el aprendizaje automático, si no sé mucho sobre la corrección de lo anterior, ¿puedo tratar de corregir el modelo a través de grandes cantidades de datos de entrenamiento?
- ¿Cuál es el mejor instituto para aprender Data Science & Analytics?
Una vez que tenga una información de entrenamiento que tenga suficiente información para identificar factores importantes y tenga una buena cantidad de tokens en su dominio cubierto, todos los tweets pertenecientes a ese dominio en particular se pueden convertir en gráficos de factores con la información irrelevante descartada.
Por lo tanto, al alimentar un tweet como entrada, obtendrá un registro de factores como salida. A partir de ahí, relacionar los factores para darles sentido es solo una cuestión de representación.
Le sugiero que lea el documento para un análisis en profundidad de cómo exactamente puede definir las probabilidades y descartar el ruido.