Aprendizaje automático: ¿cómo puedo obtener eventos y acontecimientos en la vida de las personas a partir de sus estados en Facebook o tweets?

Ha habido varios enfoques para esta idea de extraer información significativa de los datos textuales disponibles en las redes sociales. Para hacer esto se necesita un poco de comprensión del procesamiento y la probabilidad del lenguaje natural.

Mi enfoque favorito es el que ha seguido en este documento la profesora Regina Barzilay del MIT que se puede encontrar aquí: Página sobre Mit. Siguieron este enfoque para extraer registros de eventos de tweets. Para escalarlo a Facebook, se deben realizar algunos cambios significativos, ya que las personas tienden a ser más detalladas en Facebook debido a la ausencia de cualquier forma de limitación en el número de caracteres.

Los tweets se modelan como Gráficos de factores (Gráfico de factores). Cada tweet se ha modelado como un registro y cada palabra se ha modelado como un token en ese registro. Cada token puede ser un token importante (un nodo de factor) o un token no importante (nodo normal). En función de los datos de entrenamiento disponibles, el algoritmo puede detectar si un token dado es o no un factor de nodo con una cierta probabilidad.

Una vez que tenga una información de entrenamiento que tenga suficiente información para identificar factores importantes y tenga una buena cantidad de tokens en su dominio cubierto, todos los tweets pertenecientes a ese dominio en particular se pueden convertir en gráficos de factores con la información irrelevante descartada.

Por lo tanto, al alimentar un tweet como entrada, obtendrá un registro de factores como salida. A partir de ahí, relacionar los factores para darles sentido es solo una cuestión de representación.


Le sugiero que lea el documento para un análisis en profundidad de cómo exactamente puede definir las probabilidades y descartar el ruido.