Aprendizaje automático: ¿cómo puedo obtener eventos y acontecimientos en la vida de las personas a partir de sus estados en Facebook o tweets?

Ha habido varios enfoques para esta idea de extraer información significativa de los datos textuales disponibles en las redes sociales. Para hacer esto se necesita un poco de comprensión del procesamiento y la probabilidad del lenguaje natural.

Mi enfoque favorito es el que ha seguido en este documento la profesora Regina Barzilay del MIT que se puede encontrar aquí: Página sobre Mit. Siguieron este enfoque para extraer registros de eventos de tweets. Para escalarlo a Facebook, se deben realizar algunos cambios significativos, ya que las personas tienden a ser más detalladas en Facebook debido a la ausencia de cualquier forma de limitación en el número de caracteres.

Los tweets se modelan como Gráficos de factores (Gráfico de factores). Cada tweet se ha modelado como un registro y cada palabra se ha modelado como un token en ese registro. Cada token puede ser un token importante (un nodo de factor) o un token no importante (nodo normal). En función de los datos de entrenamiento disponibles, el algoritmo puede detectar si un token dado es o no un factor de nodo con una cierta probabilidad.

Una vez que tenga una información de entrenamiento que tenga suficiente información para identificar factores importantes y tenga una buena cantidad de tokens en su dominio cubierto, todos los tweets pertenecientes a ese dominio en particular se pueden convertir en gráficos de factores con la información irrelevante descartada.

Por lo tanto, al alimentar un tweet como entrada, obtendrá un registro de factores como salida. A partir de ahí, relacionar los factores para darles sentido es solo una cuestión de representación.

Le sugiero que lea el documento para un análisis en profundidad de cómo exactamente puede definir las probabilidades y descartar el ruido.

Related Content

Cómo obtener información real de los datos

Si todos mis estudiantes por debajo del promedio alcanzaron el promedio de la clase, ¿cuál será el aumento porcentual en el promedio de la clase?

¿Me puede dar algún ejemplo de proyectos de big data?

Soy estudiante de primer año del programa de maestría en análisis y recuperación de información en la Universidad de Michigan. Rutinariamente trabajo con cerdo y colmena y soy muy hábil con Python y R, pero ¿son suficientes o necesito ser doctorado antes de comenzar una carrera en ciencias de datos?

¿Qué tan básicos son los datos en Uber?

Quiero convertirme en un científico de datos, ¿cómo me convierto en un buen estadístico? ¿Cuáles son buenos libros, conferencias, blogs, etc. que mejorarán mi comprensión de los métodos estadísticos a nivel profesional?

¿Cuáles son algunos de los “productos de datos” creados por los grandes como Amazon, LinkedIn, Twitter, Facebook, etc.?

More Interesting

Cómo convertirse en un científico de datos en 4-5 meses si no tengo experiencia previa con ningún lenguaje de programación

¿Qué son la ciencia de datos y el aprendizaje automático?

¿Hay algún curso de análisis (en el Reino Unido o en línea) que se especialice en interpretar análisis y datos para darme información comercial significativa?

¿Cuál es el mejor instituto de formación en Dehradun para Data Science?

¿Existe alguna literatura interesante sobre cómo ajustar las distribuciones normales por MLE, permitiendo que tanto la media como la varianza dependan de los regresores y el uso de series temporales?

¿Qué cosas necesito saber antes de ingresar al análisis de datos?

¿Cuál es el plan de curso que debo tomar del estilo de datos?

¿Por qué Java no se considera apropiado para ML / ciencia de datos / aprendizaje profundo?

Tengo 7 años de experiencia en análisis y ciencia de datos. ¿Vale la pena hacer PGPBA de Greatlakes o IIMB o CBA de ISB?

¿Cuál es el ciclo de vida de un proyecto de ciencia de datos o aprendizaje automático?

¿Qué está impulsando la prisa de la industria financiera para adoptar Big Data?

¿Qué busca Quora en sus pasantes de Data Science?

¿Tendrá Gmail que finalizar su límite de almacenamiento que aumenta automáticamente?

¿Qué tan efectivos son los cursos en línea para aprender ciencia de datos?

MLconf 2015 Seattle: ¿Cómo puede usar la topología para abordar los problemas de aprendizaje automático?

Web Analytics