¿Crees que es posible generar historias, pistas dadas, usando técnicas de PNL?

El usuario de Quora (+1) ha respondido esta pregunta de manera positiva, y yo también soy bastante positivo. Sin embargo, hay ciertos problemas no triviales que deben resolverse antes de poder responder a esta pregunta.

¿Qué implica el problema del OP?
1] Primero, necesitamos construir un blob de texto que contenga las palabras dadas como pistas. Las palabras de pista deben venir en la secuencia provista.
2] En segundo lugar, no solo debemos crear este blob de texto, sino que el texto debe tener significado.
3] En tercer lugar, no solo el texto debe tener significado, sino que debe estar completo. Es decir, no necesita contexto adicional para comprender cualquier parte de la historia.

La primera tarea es la tarea más fácil. Por ejemplo, si construimos un HMM de dos gramos a partir de un corpus de historias como la del proyecto Gutenberg [1]. Entonces, debería ser posible construir una secuencia de palabras que contengan las palabras de pista en el orden dado. Sin embargo, esto podría ser muy costoso en términos de complejidad temporal.

El problema es la segunda y la tercera tarea. No está claro si el uso de ideas simples como HMM de dos gramos para la generación de texto se prestaría muy bien para la segunda y tercera tarea. Pregunta: ¿Un texto generado a través de HMM de dos gramos que incorpore las palabras indirectas sería necesariamente significativo y completo debido a la naturaleza de las sugerencias proporcionadas (suponiendo que tengamos acceso a corpus bastante grandes para entrenar HMM)? Esencialmente, la pregunta que se hace aquí es: ¿los grandes corpus + indican palabras => significativas y todas las sugerencias en el texto blob => completitud? Respuesta: no estoy seguro. Es posible que necesitemos mejores modelos para la generación de texto donde incorpore la noción de significado e integridad como parte del modelo mismo.

La PNL se ha centrado tradicionalmente en problemas en los que, dado un texto completo, el objetivo es crear un resumen del texto completo [2] o crear artículos de wikipedia [3] a partir de diversas fuentes de información o crear historias específicas de dominio a partir de hechos [4]. Todos estos problemas tienen el mismo problema de ser significativos y completos. Aquí también se pueden adaptar para nuestro problema de interés. Dicho esto, no estoy seguro de lo fácil o difícil que será, ya que en los problemas anteriores se puede definir el significado y la integridad en términos de los datos fuente más ricos, mientras que en este problema en particular, las palabras indirectas son la única fuente a través de cuál puede definir estos dos aspectos.

[1] Proyecto Gutenberg
[2] Resumen automático
[3] Página sobre Mit
[4] Las noticias automatizadas llegan a la cobertura deportiva a través de StatSheet | TechCrunch