Los sistemas de asistente de usuario integrados artificialmente inteligentes, como Siri de Apple, Google Now, Cortana de Microsoft, unidades de GPS Garmin, Verizon Navigator, Ford SYNC, así como varios otros sistemas de software AI de marca, se conocen como tecnología Interactive Voice Response. Los dispositivos que incluyen IVR como una característica, como los iPhones de Apple y las camionetas Ford F-150 fabricadas y vendidas en los últimos años, “hablan” al reproducir grabaciones de audio cortas de palabras, frases comunes y sonidos específicos del sistema operativo.
Estos clips de audio son grabaciones de la voz real y real de una persona en vivo. Los artistas que han proporcionado voces en off a las empresas para anuncios, personajes de dibujos animados y / o mensajes automáticos a menudo también participan en el desarrollo de la tecnología Interactive Voice Response para dispositivos de consumo.
Por ejemplo, si alguna vez solicitó verbalmente información de un iPhone dirigiéndose a Siri, esperó para abordar un vuelo en la terminal Delta Airlines de un aeropuerto, vio un comercial de televisión para un evento de venta en la tienda de Macy’s, hizo una llamada telefónica a un Home Depot y fue puesto en espera por un sistema de contestador automático, o escuchó un anuncio en la radio del Lotus Esprit S4, escuchó la voz de Susan Bennett, una artista y músico de voz en off inusualmente famosa.
- ¿Es la ética una consecuencia de la inteligencia? ¿Cuáles son las implicaciones de esta relación para el surgimiento de la inteligencia artificial?
- ¿Cuál es la diferencia entre inteligencia artificial y natural?
- Si es posible crear vida artificial dentro de una computadora, ¿es posible crear vida artificial dentro de la imaginación?
- ¿Qué evento específico podría llevar a una computadora a ser consciente de sí misma?
- ¿Cómo es la competencia para un doctorado en las mejores escuelas en áreas distintas a la IA? Parece que todo el mundo quiere obtener un doctorado en IA hoy en día, por lo que me preguntaba cuántas aplicaciones obtienen otras áreas.
Obviamente, existen limitaciones y desventajas asociadas con la tecnología Interactive Voice Response. Uno de los problemas más comunes con la utilización de las funciones de IVR en los sistemas operativos de teléfonos inteligentes, unidades de GPS, consolas de tablero de vehículos, computadoras, etc. es la “pronunciación incorrecta” de las palabras por parte del software IVR. Esta es una limitación inevitable, o un error (generalmente menor), y su aparición es imposible de eliminar por completo en el desarrollo de sistemas IVR.
Los ejemplos de esta limitación abundan e incluyen sistemas AI IVR que ‘pronuncian’ torpemente las marcas de las compañías. Por ejemplo, una unidad de asistencia de navegación GPS diseñada para montarse en el tablero de un automóvil y proporcionar instrucciones de manejo en tiempo real puede tener una característica que permite a los usuarios encontrar rápidamente una ruta a un “tipo” de destino en particular. No es raro que las unidades GPS tengan una función de tipo “Encontrar el más cercano ____”, que proporciona a los usuarios una selección de categorías de destino, que los sistemas operativos GPS suelen denominar “puntos de interés”. Las opciones de categoría “Punto de interés” programadas en fábrica que se ven comúnmente incluyen estaciones de servicio, hoteles / moteles (“alojamiento”), restaurantes, paradas de descanso, parques públicos / terrenos recreativos / reservas forestales, hospitales, cajeros automáticos, estaciones de tren, centros comerciales, policía estaciones, principales destinos turísticos y sitios para acampar.
Pensemos en un escenario hipotético en el que un conductor de un Ford F150 2014 quiere encontrar un hotel cercano. El vehículo del conductor cuenta con el programa SYNC de Ford, una unidad GPS integrada de reconocimiento de voz interactivo con sistema de respuesta de voz en la consola central del tablero. El conductor indica el software de reconocimiento de voz y dice en voz alta: “Encuentre los hoteles más cercanos”, lo que hace que el GPS busque en su base de datos interna de Puntos de interés archivados como “Hoteles”, identifique coincidencias con “Hoteles” dentro de un cierto radio del vehículo y presente al conductor un mapa actualizado en pantalla con indicadores de las ubicaciones de los hoteles cercanos. El sistema IVR responde simultáneamente (más o menos; se puede perdonar un breve retraso en dispositivos que participan activamente en la transmisión de datos bidireccional con satélites en órbita en el espacio cercano, y no es evitable ni predecible para los fabricantes de GPS porque el breve retraso del GPS generalmente es una señal observable interferencia causada por la radiación de la llamarada solar, la expulsión del plasma solar y / o las eyecciones de masa coronal [CME]. Si el Sol se enciende, el Sol se encenderá y uno tolerará pacientemente el retraso de la señal GPS, o de lo contrario se ocupará del problema con el Dom). El sistema Ford SYNC IVR fue programado para angloparlantes. El hotel más cercano a la ubicación del vehículo en este escenario hipotético es un La Quinta Inn; por lo tanto, la función IVR del sistema GPS está condenada a “decir”, “La-q-wine-ta-Inn se encuentra a 0.3 millas más adelante a la izquierda”.
Las palabras particularmente propensas a ser “pronunciadas erróneamente” por los sistemas IVR son nombres de calles con nombres de personas con apellidos inusuales (como la avenida Touhy de Chicago), palabras extranjeras incorporadas al inglés (como “tortillas”, “fiordo” o “ingenuidad”) y nombres de marcas que son palabras inventadas (como “Purina” o “Häagen-Dazs” [no, esa no es una marca extranjera, es una palabra inventada que no tiene ningún sentido en todos los idiomas. La compañía de helados fue fundada en el Bronx, Nueva York, por un tipo llamado Reuben Mattus, quien inventó el nombre como una táctica de marketing. El nombre parece europeo a los ojos estadounidenses, lo que implica que el helado es lo suficientemente bueno como para ser importado de al otro lado del Océano Atlántico [piense por un momento …] Se supone que el nombre no solo debe parecer europeo, sino que específicamente, se supone que parece ser un término danés. ¿Por qué molestarse en inventar una frase que se parezca al danés cuando se escribe? sin significado en el idioma danés, sin conexión con Dinamarca, n o alguna relación con el patrimonio cultural danés? Respuesta simple: Dinamarca es una nación nórdica, y específicamente, escandinava, junto con Noruega y Suecia. Sea lo que sea que alguien pueda hacer, Escandinavia puede hacerlo mejor, eso no es un juicio ni una opinión, solo como realmente es en realidad, a pesar de que Escandinavia no es particularmente competitiva y no busca atención. La gente hace la conexión inconsciente entre el nombre de aspecto danés y Escandinavia, asume que los dos están conectados y, por lo tanto, Haagen-Dazs parece ser inexplicablemente de una calidad inherentemente más fina que las marcas de helados al lado en los pasillos de congeladores de las tiendas de comestibles. Resultado: el helado del Bronx se vende bien.])
La razón por la cual los sistemas AI IVR tienden a “pronunciar mal” las palabras es porque es imposible grabar el audio de una persona que habla cada palabra que cada consumidor del mercado objetivo para dispositivos tecnológicos podría usar, incluidos los nombres propios. Cuando el software IVR encuentra una palabra que se supone que debe ‘decir’ en voz alta pero no reconoce, un símbolo del sistema desencadena un proceso llamado concatenación. La concatenación es el proceso de tomar fragmentos de sonidos de diferentes grabaciones de audio de palabras que el sistema tiene como parte de su base de datos, como los sonidos de las vocales y las sílabas individuales, y combinar los sonidos en un intento de aproximar la pronunciación correcta de las palabras del sistema IVR No se puede identificar.
Los sonidos resultantes del proceso de concatenación de sistemas IVR como Siri a menudo resultan en una ‘pronunciación errónea’ incómoda, entrecortada y de sonido poco natural de palabras no programadas en el software de base de datos de audio Siri.
Por alguna razón, generalmente es más difícil para las personas entender lo que un sistema IVR está ‘diciendo’ cuando usa la concatenación para ‘pronunciar’ palabras usando fragmentos de grabaciones de audio de voces de artistas masculinos. Las grabaciones de audio de voces femeninas suenan extrañamente significativamente más naturales, se concatenan de manera más eficiente por la tecnología del sistema IVR y son más fáciles de entender cada vez que el sistema Interactive Voice Response “pronuncia mal” las palabras. Las ‘declaraciones erróneas’ siguen siendo comunes entre los sistemas integrados de dispositivos AI IVR con voz femenina, a veces humorísticamente, otras veces frustrantemente, pero en general, las voces IVR femeninas resultan más elocuentes y articuladas que las voces IVR masculinas a menudo, al menos en el estándar estadounidense Inglés.
Es bastante crítico para la función de los dispositivos que cuentan con la tecnología Interactive Voice Response que el usuario pueda entender lo que el dispositivo está diciendo, por lo que la mejor aproximación de una voz humana comprensible y de sonido natural es fundamental para un sistema AI IVR. La mayoría de las mejores aproximaciones del habla humana se crean a partir de grabaciones de voces de artistas de voz en off femeninas (a diferencia de las voces de artistas de voz en off masculinas, aunque existen excepciones, por supuesto).
No se porque. ¿Tiene que ver con la psicología humana? Absolutamente, sin duda. ¿Qué tiene que ver con la psicología humana? No estoy seguro, pero ahí está.