Procesamiento del lenguaje natural: ¿De qué maneras puedo probar el error de aplicar un modelo de tema a los tweets, dado que no hay un corpus conocido de etiquetas de temas?

Los investigadores suelen utilizar la perplejidad o la probabilidad logarítmica para evaluar sus modelos temáticos, los cuales ofrecen una evaluación relativa de la calidad. hay un documento que analiza otras técnicas de evaluación para modelos de tema [0] que probablemente valga la pena ver.

su punto de vista de que no hay un corpus conocido de etiquetas de temas es interesante. las etiquetas no son significativas por sí mismas, pero las etiquetas * y * un modelo de tema asociado con el que los investigadores podrían probar sería un recurso interesante y útil para la comunidad, en mi humilde opinión.

Dicho esto, no existe tal cosa (hasta ahora) como un modelo o etiqueta de tema absoluto. los temas son realmente solo significativos entre sí. la etiqueta de tema “correcta” para su documento (tweets) es una función del nivel al que está haciendo preguntas y qué preguntas está tratando de responder. considere, por ejemplo, la etiqueta “cocinar” versus “bienes raíces” o, dentro de cada uno de ellos, “sopas” y “guisos” versus “condominios” y “casas de pueblo”. claramente, depende de lo que quieras saber.

Por eso, por lo general, desea que dos o más temas contrasten entre sí. así que supongo que la pregunta es, ¿cuál es su resultado deseado, cómo podrían enfrentar los modelos de temas entre sí para lograrlo?

[0] http://www.cs.umass.edu/~wallach…

Hay formas de verificar la coherencia entre los temas sugeridos o extraídos usando kits de herramientas de modelado de temas usando wikipedia, wordnet ( http://wordnet.princeton.edu/ ) sin usar el corpus de etiquetas de temas. Verifique los documentos http://portal.acm.org/citation.c … y http://portal.acm.org/citation.c

La evaluación de la coherencia de los temas con evaluadores humanos es probablemente la forma más honesta de hacerlo, si su objetivo es que los “datos hablen por sí mismos”. Véase, por ejemplo, este documento de Chang et al .: http://www.umiacs.umd.edu/~jbg/d

More Interesting

¿Cuáles son actualmente los temas candentes en la investigación de aprendizaje automático y en aplicaciones reales?

¿A qué tipo de problemas del mundo real se aplica el aprendizaje no supervisado?

¿Por qué diverge un LSTM con activaciones ReLU?

¿Es bueno hacer un muestreo estratificado para la regresión cuando se le da con grandes conjuntos de datos?

¿Es la verificación en el aprendizaje profundo un tema candente?

¿Hay alguna API o aplicaciones web como Watson?

¿Qué tipo de big data se genera desde internet de las cosas? ¿Cómo recopilo esos datos? ¿Puedo aplicar el aprendizaje automático para encontrar patrones en los datos?

¿Cuál es la importancia del análisis de componentes principales (PCA) en el modelado predictivo?

¿Qué trabajo puede hacer un ingeniero de aprendizaje automático para ayudar a las personas?

Suponga que la máquina es multinúcleo, el tiempo de ejecución de un programa en una máquina que ejecuta solo ese proceso es igual al tiempo de ejecución en una máquina en la que hay otros procesos ejecutados junto con él, ¿no es así?

¿Qué es la ganancia de información en el aprendizaje automático?

¿Cuáles son las ventajas del aprendizaje semi-supervisado sobre el aprendizaje supervisado y no supervisado?

¿Es posible agregar una nueva entrada a la capa totalmente conectada justo antes del softmax en la CNN?

¿Vale la pena adquirir un conocimiento profundo tanto del aprendizaje automático como de la biología? ¿Debo concentrarme?

¿Qué son los algoritmos del sistema de recomendación? ¿Y cómo implementar en Java?