¿Existe alguna técnica de aprendizaje automático que pueda transferir automáticamente una historia escrita en texto a un libro de dibujos animados?

Como Robby y Michael ya han mencionado, los modelos actuales de aprendizaje automático no tienen modelos mundiales suficientemente sofisticados que puedan tomar como entrada una historia y generar una sinopsis de la misma en forma de un libro de dibujos animados.

El artículo de ICLR 2017 Seguimiento del estado mundial con redes de entidades recurrentes es quizás representativo del estado actual del arte en los modelos mundiales que puede construir una máquina, que todavía está muy lejos de generar una sinopsis requerida para un libro de dibujos animados

Del artículo Seguimiento del estado mundial con redes de entidades recurrentes

Sin embargo, los modelos actuales son bastante buenos para generar subtítulos de texto a partir de imágenes, que solo requieren información presente en la imagen. Por ejemplo, en el artículo Neural Image Caption Generation with Visual Attention, Bengio et al, una red neuronal convolucional produce como representación de salida de una imagen, que luego es procesada por un RNN con un mecanismo de atención que se enfoca en las regiones de la imagen que generan el subtítulo. Esta generación solo requiere información presente en la imagen: un libro de dibujos animados en contraste requeriría una sinopsis del texto original, lo que exigiría la existencia de un modelo mundial, incluso si es solo rudimentario ( puede que no resuelva los problemas planteados en el esquema de Winograd ) que puede realizar tal tarea.

Generación de subtítulos de imágenes neuronales con atención visual, Bengio et al.

Ejemplo de generación de subtítulos de imagen de un artículo de Nature de 2015 sobre aprendizaje profundo

Referencias Adicionales

Como la pregunta había mencionado sobre la generación de música como ejemplo, hay otro documento presentado para ICLR 2017 el próximo mes (abril) que describe un modelo para la generación de música. https://openreview.net/pdf?id=By…
Enlace de documentos de ICLR 2017

AprendizajeAprendizaje profundoautomáticoProcesamiento de lenguaje naturalRedes neuronales convolucionalesWord2vec

Related Content

Cómo hacer que un estudiante de pre-varsity entienda la diferencia entre estadística paramétrica y no paramétrica

¿Qué significa una probabilidad gaussiana en el clasificador bayesiano ingenuo gaussiano?

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Puedo aprender el aprendizaje automático sin conocer álgebra lineal, estadísticas y probabilidad?

¿Qué significa ser modelo pre-entrenado en CNN? ¿Ya están entrenados en esas clases particulares?

¿Cómo se compara Python con R para el análisis de datos y el aprendizaje automático?

¿Cómo podemos saber si una heurística es mejor que otra sin ejecutarla?

La música es fácil, en cierto sentido, debido a la gran cantidad de datos de entrenamiento disponibles. Hay un montón de partituras y literalmente millones de loops midi disponibles de forma gratuita. Con eso en mente, es bastante fácil construir un cuerpo de entrenamiento decente y enfocarse en algoritmos que puedan funcionar.

Su caso de uso tiene el problema opuesto. Hay dos componentes:

El procesamiento del lenguaje natural tiene que extraer una representación simbólica de su historia. Escenas, personajes, temas, escenario implícito.
Necesita crear una caricatura que represente estos símbolos.

El mayor desafío probablemente será encontrar datos de entrenamiento. Hace un par de meses, busqué bastante cualquier tipo de motor de búsqueda que ofreciera imágenes basadas en una descripción de cadena. No hay ninguno. Ni siquiera cerca.

Estamos en un punto donde la clasificación de imágenes aún no se resuelve en un grado satisfactorio. ¿Reconociendo escenas enteras con antecedentes, actores y acciones? No lo creo.

Robby Goetschalckx

No, esto requiere creatividad mucho más allá de lo que actualmente logra cualquier sistema de aprendizaje automático.

Requiere texto descriptivo para influir en los fondos y reconocer el diálogo, identificar al orador activo para todo diálogo, reconocer acciones y relacionar todo esto con información visual, de alguna manera. Encuentra algunos personajes en los que puedas mapear todas las acciones y emociones, …

Las partes más difíciles serían descifrar los paneles. ¿Cuánto pondrías en un solo panel? Cuando los personajes caminan por diferentes partes de una ciudad, ¿qué partes muestran?

Aprender esto de los ejemplos requeriría grandes cantidades de datos. Necesitaríamos una gran cantidad de libros que se hayan convertido en formato de cómic, sin dejar de ser fieles al texto original. Además, para facilitar las cosas, preferiríamos que todos esos cómics tengan estilos de dibujo similares.

No, esto aún no es posible, por lo que puedo ver.

Robby Goetschalckx

More Interesting

¿Por qué Bayes ingenuo se considera un modelo generativo?

¿El recocido simulado y la optimización de colonias de hormigas cuentan como aprendizaje automático?

¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?

Como principiante, ¿cómo debo estudiar el aprendizaje profundo?

Utilizando la regresión logística y la regularización L1 / L2, ¿debo preocuparme por la selección de características?

¿Cuáles son las implicaciones epistemológicas del hecho de que no podríamos haber programado conscientemente una red neuronal para hacer lo que hace?

¿Cuál es el mejor enfoque para la ubicación geográfica del dispositivo de clúster por cliente?

¿Es posible aplicar la localización de objetos sin tener regiones de caja en la verdad básica?

¿Cuál es el mejor método para la reducción de dimensionalidad y la selección / extracción de características en datos de espectrometría de masas?

Muchas empresas hablan de 'big data' y 'aprendizaje profundo', y siempre ponen estas etiquetas en sus productos. ¿Cuál es el verdadero significado detrás de esto?

Cómo combinar salidas del sistema de recomendación (matriz de elementos de usuario) a través de un conjunto

¿Cuáles son los mejores laboratorios de investigación en el campo de los UAV combinados con aprendizaje automático, visión y percepción por computadora?

Cómo calcular un proceso de red neuronal artificial

¿Cuál es su opinión sobre el lenguaje de programación Julia?

¿Los grandes ingenieros de aprendizaje automático siempre leen nuevos trabajos de investigación sobre ML?

Web Analytics