Dependiendo de la velocidad y el tamaño, probablemente usaría un trie de sufijo TTL y contraamplificado .
En la publicación de Grigorik, él asume que ya sabes qué temas podrían ser populares, y solo están poniendo esos temas en la estructura de datos. Si, en cambio, no sabe qué partes del texto de origen son interesantes (digamos que son tweets y no Temas de Quora), simplemente bótelos en un sufijo trie con contadores en las hojas, y los más populares serán aquellos con los contadores más grandes. Agregando la clara idea de Grigorik de que cada incremento se marque con un TTL, obtienes una máquina de análisis de temas de tendencias.
Me gustaría señalar que no es necesario usar Redis para implementar sus objetos que caducan. Hay una estructura de datos bastante simple que le dará contra caducidad con poca molestia, si conoce la cantidad y la granularidad de la historia que desea mantener por adelantado, pero está fuera del alcance de esta pregunta (y es una pregunta de entrevista popular, así que no quiero arruinarlo para los entrevistadores).
- Si alguien sin experiencia en programación quisiera aprender algoritmos y aprendizaje automático, ¿cuáles serían las mejores fases de estudio e investigación? ¿Sería mejor comenzar con el aprendizaje de la codificación? ¿Con qué idioma es mejor comenzar?
- ¿Hay alguna posibilidad de una B.Tech (CS) más fresca en trabajos de aprendizaje automático (ciencia de datos) en Bangalore?
- ¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?
- ¿Cuál es la mejor técnica de aprendizaje automático para clasificar ~ 50,000 imágenes sin etiquetar (2-3% de ruido) en 3 clases diferentes?
- Los datos financieros fluyen como 'gatos que cambian sus caras porque las computadoras los reconocen en YouTube'. ¿Hay una solución a este problema?