¿Cuáles son algunas posibles aplicaciones altruistas de la visión por computadora, el procesamiento del lenguaje natural y la inteligencia artificial en su conjunto?

Una de esas aplicaciones es el uso de un sistema que mira un video / imagen y describe el contenido. Por ejemplo, un sistema de inteligencia artificial (IA) que puede ver un video clip y generar descripciones de lo que sucedió en ese video, dicho sistema necesita:

  1. Un subsistema de visión por computadora (CV) para extraer características importantes de video / imágenes. Esto puede hacer uso de las redes neuronales convolucionales de avance (convNet). El convNet puede actuar como un detector espacial de características entrenables.
  2. El subsistema de procesamiento del lenguaje natural (PNL), especialmente la generación de lenguaje natural (NLG), es necesario para generar la descripción de la escena o el video. Esto se puede construir utilizando redes neuronales recurrentes como las redes de unidades recurrentes bloqueadas (GRU) que se alimentan de los mapas de características de alto nivel de convNet.

Facebook ya está trabajando en un sistema que genera descripciones de imágenes para personas ciegas. Para que dicho sistema se realice, es importante que muchos campos de IA se unan.

Espero que esto ayude.