Una idea en la que he estado pensando mucho últimamente, y espero incorporar en mi tesis, es traducir entre un lenguaje y una serie temporal de datos de eventos. En otras palabras, un traductor entre diferentes modalidades.
Un ejemplo sería la automatización de comentarios para eventos deportivos. Puede extraer características visuales de una transmisión de video de un evento deportivo y luego tratar de alinearlo con una transcripción del comentario. Con suficientes datos, imagino que podrías construir un “traductor” entre las características visuales y una descripción en lenguaje simple de lo que está ocurriendo en el video (restringiéndote a un dominio específico). En este caso, su traductor sería un comentarista de IA. Michael Fleischman hizo su tesis en el MIT sobre una idea similar, a la que llamó Eventos de puesta a tierra en lenguaje, y es una gran lectura. Creo que ahora fundó una compañía que está haciendo algo similar con Deb Roy. Creo que también hay un proyecto en UBC que hace la generación automática de comentarios de hockey, pero han pasado algunos años desde que vi ese proyecto.
De todos modos, tal vez esto no sea lo que estás buscando. Pero creo que es genial.
- ¿Tiene Microsoft una mejor tecnología de aprendizaje automático y aprendizaje profundo que Google?
- Cómo comenzar a trabajar en un proyecto de análisis de sentimientos
- ¿Por qué decimos que la máquina de vectores de soporte y muchas otras técnicas de aprendizaje automático tienen un supuesto subyacente de iid?
- ¿Qué campo es el mejor, big data o machine learning?
- ¿Cómo es un proyecto de visión por computadora "típico", de principio a fin?