¿Cómo funciona la generación de historias artificiales (automáticas)?

Los generadores de historias se han vuelto muy interesantes durante los años 2010, porque ahora tenemos:

  • Repositorios de datos abiertos, que pueden usarse para análisis de corpus y tropos.
  • Herramientas para una clasificación eficiente supervisada, semi-supervisada y no supervisada.
  • Relevancia lograda, debido al problema de la desinformación; El análisis narrativo se ha convertido incluso en un problema políticamente relevante, lo que hace que la investigación esté mejor financiada.
  • Motores de juego, que están listos para utilizar NPC guiados al estilo de Westworld en entornos MMORPG; Es posible que los generadores de historias no puedan producir diálogo, pero pueden ayudarnos a construir estructuras dramáticas y comportamientos de personajes que no sean jugadores.
  • Más aplicaciones de teoría de la escritura basadas en los algoritmos de primera generación (de 1970 a principios de 2000).
  • Mejores ideas sobre restricciones buenas y malas para tales sistemas (cómo medir el éxito y el error).

Pablo Gervas escribió una buena visión general de la historia de los algoritmos de Story Generator en 2010. Otros dos científicos, que a menudo aparecen en los libros blancos que leí, son Mark O. Riedl y R. Michael Young.

Aproximadamente hay dos tipos de generadores de historias: los que intentan crear Fabula y los que intentan crear Sjuzet. Fabula es el conjunto de eventos como secuencias temporales, que suceden en el mundo de la historia, mientras que Sjuzet solo se enfoca en lo que se observa. El análisis de Sjuzet generalmente está limitado al análisis de corpus, mientras que los enfoques de Fabula intentan comprender la estructura de los elementos de la historia desde un enfoque más de “mundos potenciales”. Personalmente, no me han interesado mucho los enfoques de Sjuzet; Creo que es de mayor nivel de complejidad, que lo que es fructífero para la investigación en este momento (qué mostrar y qué ocultar a la audiencia se hace más fácilmente, una vez que se puede crear una Fabula auténtica).

Los generadores de Fabula también se dividen en aproximadamente dos categorías: los basados ​​en simulación y los deliberados. En la simulación, se hacen personajes y luego se simulan sus interacciones, que luego se utilizan para generar historias. Los personajes reaccionan principalmente al mundo cambiante; Estos métodos tienen más dificultades para lograr los objetivos del drama establecidos por el autor. En cambio, los métodos deliberativos adoptan un enfoque más de Aprendizaje de refuerzo y utilizan un enfoque similar a un juego bayesiano, donde un conjunto de secuencias de eventos se “minimiza” frente a objetivos dramáticos no cumplidos. El enfoque basado en simulación puede ejecutarse descentralizado, mientras que el método deliberativo requiere un planificador central.

Por supuesto, probablemente pueda ver que con métodos de aprendizaje profundo, podemos obtener lo mejor de ambos mundos; Una capa de métodos deliberados que se utilizarán para las líneas de trama de fotogramas clave y la simulación para combinarlos.

Para combinar eficientemente la simulación y los métodos deliberados, necesitaríamos una heurística: podría ser una buena idea clasificar los eventos de los personajes con un modelo neurológico o psicológico (por ejemplo, método SCARF) y luego usar métodos deliberados para maximizar el drama de acuerdo con esa heurística y luego analice cómo tales bloques de construcción de dispositivos narrativos podrían usarse como tramas narrativas a largo plazo. Hasta el momento, no se ha realizado ninguna investigación de este tipo, que yo sepa.

En un nivel más concreto, un ejemplo de un método deliberado sería IPOCL (planificador de enlaces causales de orden parcial impulsado por la intención) de Riedel y Young, que ahora tiene muchas variaciones, como CPOCL (impulsado por conflictos; un gran drama comienza a partir de conflictos) .

Algunos métodos han utilizado el crowdsourcing con la ayuda de Mechanical Turk y servicios similares. Otros han construido ontologías semánticas abiertas. En la década de 1990, el uso de los corpus populares también era popular. Todos los métodos tienen fortalezas y debilidades, pero la investigación en curso es muy rápida ya que la mayoría de las veces los errores del método investigado se hacen evidentes durante el proyecto de investigación; los científicos obtienen nuevas ideas de investigación antes de que la conversación sobre los resultados haya comenzado, lo cual es raro para las ciencias de la computación, donde las nuevas ideas generalmente requieren esfuerzos activos de revisión por pares para surgir (la mayoría de los buenos algoritmos, aún ampliamente utilizados, son más antiguos que pocas décadas )

Podría concluir que estamos lejos de lograr historias poéticamente bien escritas, pero un poco más cerca de lograr herramientas analíticas basadas en eventos para la composición del drama.

a2a. Si bien no tengo experiencia con este tipo particular de implementación de aprendizaje automático, la intuición sobre cómo podría funcionar un buen generador de historias es la coincidencia de patrones clásica. Para obtener una historia original, se debería incluir una interfaz de aprendizaje semi-supervisada. A continuación se muestra uno de los muchos enfoques. La tecnología de aprendizaje profundo simplificaría el proceso y los elementos que describo.

Dejando de lado los detalles, debido a que hay muchas maneras en que esto podría implementarse, construiría una colección de trabajos en un corpus que luego entrenaría en patrones lingüísticos. La selección de publicaciones para incluir en el corpus influiría profundamente en el producto final al igual que la elección de los patrones lingüísticos.

La conformación sería la técnica fundamental para influir en la salida. La inclusión exclusiva de las obras de Shakespeare produciría un conjunto de historias muy diferente al de un corpus darwiniano. La mezcla de autores dentro de los géneros sería parte del arte. Acción versus tomos románticos, versus todo lo demás, cuántos de cada uno, el número de autores diferentes en cada categoría y muchos otros factores darían forma a las historias generadas.

El entrenamiento del patrón lingüístico tiene aún más variación de características. Formar aquí sería un gran contribuyente a la voz de las historias creadas. Esto también tiene la mayor complejidad en términos de técnicas de implementación. Manteniendo la intuición, la selección de frases que incluya se convertiría en el patrón de fraseo dominante. Emparejar palabras, frases, oraciones y extractos influiría en el tono; Hay patrones cómicos, trágicos y muchos otros.

Para construir el componente semi-supervisado, crearía un proceso iterativo; examen humano y aporte breve junto con un proceso de reciclaje. El software presentaría una parte de una historia y el asesor humano editaría la información. Nuevamente, hay muchas dimensiones para esto; Sembrar con un conjunto de parámetros o un esquema, delimitar las características de la historia, como el entorno geográfico, y proporcionar fotografías ejemplares (con o sin explicación, dependiendo de su tecnología) son solo algunas opciones.

La automatización completa sería una cuestión de crear generadores para los pasos del examen humano. Una vez más, hay muchas maneras de hacer esto y hacer que esta parte sea correcta sería un desafío considerable. Dicho esto, con el equipo adecuado podría imaginar que hoy sea una empresa viable. En el futuro, también podría construir un ‘editor’ que lea cada historia y determine si la pieza debe publicarse.

Si esto toca un acorde y continúas construyendo algo similar a lo que he descrito, contáctame para contarme cómo lo hiciste.

Marcus L Endicott tiene un buen punto sobre las aplicaciones narrativas basadas en datos.

Si está interesado en una formalización de cómo los autores componen sus trabajos, acompañada de una aplicación, puede consultar:
Libro de Teoría – Dramatica

De lo contrario, el proceso de no decir show puede ser lo que implica de un vistazo. Alguien escribe una trama de resumen que tendrá los elementos de carácter, escenario y tema para que estos se expandan según algunas descripciones. El autor, por otro lado, está tratando de sorprender al lector para que salte lo obvio y busque giros, contrastes y reversiones. Las técnicas manuales tenían listas de verificación de indicaciones, hojas de trabajo y cuadernos. Si la aplicación ha leído muchos libros, hará sus propias observaciones y se consolidará a partir de tropos, géneros o estilos. Pueden escribir títulos, primeras líneas, encabezados, tramas, nombres de personajes, configuraciones, etc. Al igual que la ficción interactiva o los juegos, pueden arrojar algo de aleatoriedad. Pueden aprender a tocar estas cosas ellos mismos practicando ahora. Los chatbots pueden imitar personalidades como actores de métodos. Los representantes pueden eventualmente escribir futuros predeterminados para los usuarios. Es posible que hayan maximizado tanto el entretenimiento que podrían intercambiar el contenido web, de forma gratuita, sin previo aviso.

Hubo un generador de script SAGA para el TX-0 a finales de los años 50. Otro escribió cartas de amor antes de eso medio siglo antes que Ella:
Una cuenta de aleatoriedad en computación literaria

Fabulista | Entertainment Intelligence Lab enumera artículos más recientes.

La IA de Google puede aprender a jugar videojuegos
AI aprende a construir niveles de Super Mario viendo YouTube – CNET

Si comprenden el conflicto, entonces tal vez puedan resolverlo creativamente.

¿Qué tipo de publicaciones son útiles para desarrollar software de generación automática de romance?

En términos generales, los libros automatizados se crean a partir de plantillas ; sin embargo, los “sistemas de generación de poesía” tienden a ser más aleatorios, como las tonterías codificadas generadas por los “sistemas de Markov” (también conocidos como “generadores de Markov”). Hubo un tiempo en que había una moda de crear “poesía” traduciendo algo a un idioma y luego volviéndolo a traducir usando Google Translate, que cambió las palabras / significado en cada sentido.

Actualmente, las dos compañías principales con productos en el espacio NLG son Perspectivas automatizadas y Ciencia narrativa , enfocadas en crear narrativa a partir de datos en bruto. Un hecho interesante es que David Ferrucci , investigador principal de IBM Watson, comenzó su carrera trabajando en “máquinas de contar historias” (también conocido como “narración de historias automatizada”, “generación de historias” o “generador de historias”).