Siguiendo el ejemplo de David Karger relacionado con la comprensión del texto, también recomendaría que estudie la Asignación de Dirichlet Latente (Asignación de Dirichlet Latente), probablemente mi modelo generativo favorito. En este caso, cada documento también se explica mediante una distribución, pero ahora, en lugar de las palabras directamente, suponemos que hay un conjunto limitado de temas latentes que se infieren de los datos.
La LDA y los modelos generativos relacionados, como el Proceso de restaurante chino o el Proceso de Dirichlet, se pueden usar para muchas otras aplicaciones además de explicar documentos de texto. En términos generales, puede pensar en ellos como una alternativa a la agrupación no supervisada, pero también he visto aplicaciones más exóticas que se extienden hasta el análisis automático de música (consulte la página en ucsd.edu, por ejemplo).
- ¿Qué me preparará mejor para convertirme en científico de datos: un título universitario relevante o autodidacta a través de Coursera, Kaggle y proyectos paralelos?
- Si mis datos consisten en Hosts e Invitados, ¿cómo estructuraría la base de datos para que no termine con una gran cantidad de datos duplicados?
- ¿Qué tecnologías hay en Big Data?
- ¿Cuál es la diferencia entre Data Science y Big Data?
- ¿Cómo son las estadísticas generadas por los canales en los partidos de la Copa Mundial de la CCI que dicen: "India ha ganado todos sus partidos si batean primero y suman más de 270 +" / "India ha ganado todos sus partidos donde Kohli anotó> 100"?