¿Cuál sería la mejor manera de agrupar un flujo de titulares de noticias?

Desafortunadamente, el contenido del artículo no es muy discriminatorio, ya que desea titulares con diferentes significados pero el mismo artículo está en diferentes grupos.
Esto hace las cosas difíciles.

Lo que está buscando es una comprensión semántica completa, es decir, el santo grial de la PNL. La concordancia simple de palabras clave no funcionará.

Vea este trabajo de Hoifung Poon + Pedro Domingos (2009), “Análisis semántico sin supervisión”: http://www.aclweb.org/anthology/…
Pueden alcanzar velocidades muy altas, IIRC pueden analizar toda Wikipedia en una hora (Poon, pc).

Como dije, la simple concordancia de palabras clave no funcionará. Una vez que empiece a ser complicado, e intente englobar palabras en grupos de sinónimos y agregue una pizca de sintaxis, también podría intentar el enfoque Poon + Domingos porque eso es esencialmente lo que están haciendo.

La parte difícil de agrupar los titulares de las noticias es que llegan con el tiempo. Por lo tanto, algunos grupos aparecerán de la nada y luego se desvanecerán lentamente hacia la obsolescencia. La mayoría de los artículos que he leído en esta área están relacionados con la detección de novedades o con la búsqueda de un nuevo “tema” justo cuando comienza a aparecer. Un trabajo que me gusta es http://citeseerx.ist.psu.edu/vie

La indexación semántica latente también es buena en esto. También podría hacer cosas simples como crear una bolsa de palabras (recuento de palabras) término vector y tomar la similitud de los dos vectores.

Modelo de espacio vectorial

Vea un ejemplo de medida:
Similitud de coseno