¿Hay algún paquete de código abierto para aplicar ML a las publicaciones de Twitter?

  • Twitter NLP (http://code.google.com/p/ark-twe…): – El paquete Twitter NLP se puede utilizar para tokenizar e identificar el etiquetado POS para el tweet.
  • Twitter NER (https://github.com/aritter/twitt…): se llama sistema de reconocimiento de entidades capacitado en datos de Twitter. En general, el caso Camel y el caso de la palabra Capital se consideran una característica muy importante para la entidad con nombre. Pero en el tweet, el usuario usa palabras mayúsculas para dar más énfasis. Por lo tanto, el sistema general de reconocimiento de entidades con nombre identifica muchos de los casos de palabras capitales como entidad con nombre en los datos de Twitter. Pero dado que esta herramienta está entrenada en datos de Twitter, es bastante precisa e ignora estos casos.
  • Implementación de LDA para tweeter: consulte la implementación de LDA específica de Twitter (www2012.wwwconference.org/proceedings/companion/p1035.pdf) y (http://sewm.pku.edu.cn/TianwangL…)
  • Normalización de Twitter: Twitter tiene una restricción de 140 caracteres. Por lo tanto, los tweets generalmente tienen variaciones de palabras, símiles, formas cortas y ruidos. Por lo tanto, es necesario convertir el tweet a una oración en inglés adecuada, antes de usarlo para la aplicación nlp. El investigador tiene herramientas de traducción automática para traducir el tweet a la oración correcta en inglés. revise la respuesta de quora para obtener más detalles. (Procesamiento de lenguaje natural: ¿cómo haría una API que convierta cualquier tweet en una oración en inglés?

Actualmente estamos agregando esta función al rastreador de la nube

rastreador de nubes

para trabajar en twitter, instagran, vine, etc.

Si hay algún interés en participar, comuníquese

No es específicamente el aprendizaje automático per se, pero mi grupo de investigación tiene una parte de Twitter de código abierto de etiquetado de discurso (pos) http://www.ark.cs.cmu.edu/TweetNLP/

More Interesting

¿Cuál es la diferencia entre IA, aprendizaje automático y aprendizaje profundo?

¿Por qué se requieren conocimientos de aprendizaje automático para un periodista de datos? ¿Por qué la exploración y visualización de datos por sí sola no es suficiente para el periodismo de datos?

¿Una máquina aprende una ciencia o un arte?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

¿Deberíamos comenzar con Tensorflow, Keras o Sonnet para desarrollar un sistema de predicción de datos de series temporales? ¿Debemos usar solo lenguajes basados ​​en Python?

¿Se puede desarrollar un bot de chat usando Tensorflow? En caso afirmativo, ¿cómo empiezo a codificar en el mismo?

¿Existen métodos de aprendizaje automático además de los que requieren redes neuronales?

¿Hay algún ejemplo en la inferencia bayesiana de que, incluso con infinitos puntos de datos, el efecto de lo anterior no puede ser "eliminado"?

¿Cuál es un buen tutorial sobre el uso de Weka con Big Data?

¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?

¿Cuáles son algunas reglas de clasificación de pulgares?

¿Cuándo recomendaría los modelos gráficos sobre el aprendizaje profundo?

¿Es posible detectar una estructura de acordes en una canción usando el aprendizaje profundo? Si es así, ¿cómo?

¿Cuánto aprendizaje automático aprendería al completar el curso Andrew Ng (el de Coursera), en una escala de 100?

¿Qué ha causado la gran mejora en los algoritmos de reconocimiento de voz en los últimos años: mejores algoritmos (si es así, ¿cuál?) O la mayor potencia informática?