¿Por qué todos los robots de inteligencia artificial como Siri, Google Now y la mayoría de los sistemas GPS utilizan voces femeninas? ¿Por qué no voces en off masculinas? ¿Tiene que ver con la psicología humana?

Los sistemas de asistente de usuario integrados artificialmente inteligentes, como Siri de Apple, Google Now, Cortana de Microsoft, unidades de GPS Garmin, Verizon Navigator, Ford SYNC, así como varios otros sistemas de software AI de marca, se conocen como tecnología Interactive Voice Response. Los dispositivos que incluyen IVR como una característica, como los iPhones de Apple y las camionetas Ford F-150 fabricadas y vendidas en los últimos años, “hablan” al reproducir grabaciones de audio cortas de palabras, frases comunes y sonidos específicos del sistema operativo.

Estos clips de audio son grabaciones de la voz real y real de una persona en vivo. Los artistas que han proporcionado voces en off a las empresas para anuncios, personajes de dibujos animados y / o mensajes automáticos a menudo también participan en el desarrollo de la tecnología Interactive Voice Response para dispositivos de consumo.

Por ejemplo, si alguna vez solicitó verbalmente información de un iPhone dirigiéndose a Siri, esperó para abordar un vuelo en la terminal Delta Airlines de un aeropuerto, vio un comercial de televisión para un evento de venta en la tienda de Macy’s, hizo una llamada telefónica a un Home Depot y fue puesto en espera por un sistema de contestador automático, o escuchó un anuncio en la radio del Lotus Esprit S4, escuchó la voz de Susan Bennett, una artista y músico de voz en off inusualmente famosa.

Obviamente, existen limitaciones y desventajas asociadas con la tecnología Interactive Voice Response. Uno de los problemas más comunes con la utilización de las funciones de IVR en los sistemas operativos de teléfonos inteligentes, unidades de GPS, consolas de tablero de vehículos, computadoras, etc. es la “pronunciación incorrecta” de las palabras por parte del software IVR. Esta es una limitación inevitable, o un error (generalmente menor), y su aparición es imposible de eliminar por completo en el desarrollo de sistemas IVR.

Los ejemplos de esta limitación abundan e incluyen sistemas AI IVR que ‘pronuncian’ torpemente las marcas de las compañías. Por ejemplo, una unidad de asistencia de navegación GPS diseñada para montarse en el tablero de un automóvil y proporcionar instrucciones de manejo en tiempo real puede tener una característica que permite a los usuarios encontrar rápidamente una ruta a un “tipo” de destino en particular. No es raro que las unidades GPS tengan una función de tipo “Encontrar el más cercano ____”, que proporciona a los usuarios una selección de categorías de destino, que los sistemas operativos GPS suelen denominar “puntos de interés”. Las opciones de categoría “Punto de interés” programadas en fábrica que se ven comúnmente incluyen estaciones de servicio, hoteles / moteles (“alojamiento”), restaurantes, paradas de descanso, parques públicos / terrenos recreativos / reservas forestales, hospitales, cajeros automáticos, estaciones de tren, centros comerciales, policía estaciones, principales destinos turísticos y sitios para acampar.

Pensemos en un escenario hipotético en el que un conductor de un Ford F150 2014 quiere encontrar un hotel cercano. El vehículo del conductor cuenta con el programa SYNC de Ford, una unidad GPS integrada de reconocimiento de voz interactivo con sistema de respuesta de voz en la consola central del tablero. El conductor indica el software de reconocimiento de voz y dice en voz alta: “Encuentre los hoteles más cercanos”, lo que hace que el GPS busque en su base de datos interna de Puntos de interés archivados como “Hoteles”, identifique coincidencias con “Hoteles” dentro de un cierto radio del vehículo y presente al conductor un mapa actualizado en pantalla con indicadores de las ubicaciones de los hoteles cercanos. El sistema IVR responde simultáneamente (más o menos; se puede perdonar un breve retraso en dispositivos que participan activamente en la transmisión de datos bidireccional con satélites en órbita en el espacio cercano, y no es evitable ni predecible para los fabricantes de GPS porque el breve retraso del GPS generalmente es una señal observable interferencia causada por la radiación de la llamarada solar, la expulsión del plasma solar y / o las eyecciones de masa coronal [CME]. Si el Sol se enciende, el Sol se encenderá y uno tolerará pacientemente el retraso de la señal GPS, o de lo contrario se ocupará del problema con el Dom). El sistema Ford SYNC IVR fue programado para angloparlantes. El hotel más cercano a la ubicación del vehículo en este escenario hipotético es un La Quinta Inn; por lo tanto, la función IVR del sistema GPS está condenada a “decir”, “La-q-wine-ta-Inn se encuentra a 0.3 millas más adelante a la izquierda”.

Las palabras particularmente propensas a ser “pronunciadas erróneamente” por los sistemas IVR son nombres de calles con nombres de personas con apellidos inusuales (como la avenida Touhy de Chicago), palabras extranjeras incorporadas al inglés (como “tortillas”, “fiordo” o “ingenuidad”) y nombres de marcas que son palabras inventadas (como “Purina” o “Häagen-Dazs” [no, esa no es una marca extranjera, es una palabra inventada que no tiene ningún sentido en todos los idiomas. La compañía de helados fue fundada en el Bronx, Nueva York, por un tipo llamado Reuben Mattus, quien inventó el nombre como una táctica de marketing. El nombre parece europeo a los ojos estadounidenses, lo que implica que el helado es lo suficientemente bueno como para ser importado de al otro lado del Océano Atlántico [piense por un momento …] Se supone que el nombre no solo debe parecer europeo, sino que específicamente, se supone que parece ser un término danés. ¿Por qué molestarse en inventar una frase que se parezca al danés cuando se escribe? sin significado en el idioma danés, sin conexión con Dinamarca, n o alguna relación con el patrimonio cultural danés? Respuesta simple: Dinamarca es una nación nórdica, y específicamente, escandinava, junto con Noruega y Suecia. Sea lo que sea que alguien pueda hacer, Escandinavia puede hacerlo mejor, eso no es un juicio ni una opinión, solo como realmente es en realidad, a pesar de que Escandinavia no es particularmente competitiva y no busca atención. La gente hace la conexión inconsciente entre el nombre de aspecto danés y Escandinavia, asume que los dos están conectados y, por lo tanto, Haagen-Dazs parece ser inexplicablemente de una calidad inherentemente más fina que las marcas de helados al lado en los pasillos de congeladores de las tiendas de comestibles. Resultado: el helado del Bronx se vende bien.])

La razón por la cual los sistemas AI IVR tienden a “pronunciar mal” las palabras es porque es imposible grabar el audio de una persona que habla cada palabra que cada consumidor del mercado objetivo para dispositivos tecnológicos podría usar, incluidos los nombres propios. Cuando el software IVR encuentra una palabra que se supone que debe ‘decir’ en voz alta pero no reconoce, un símbolo del sistema desencadena un proceso llamado concatenación. La concatenación es el proceso de tomar fragmentos de sonidos de diferentes grabaciones de audio de palabras que el sistema tiene como parte de su base de datos, como los sonidos de las vocales y las sílabas individuales, y combinar los sonidos en un intento de aproximar la pronunciación correcta de las palabras del sistema IVR No se puede identificar.

Los sonidos resultantes del proceso de concatenación de sistemas IVR como Siri a menudo resultan en una ‘pronunciación errónea’ incómoda, entrecortada y de sonido poco natural de palabras no programadas en el software de base de datos de audio Siri.

Por alguna razón, generalmente es más difícil para las personas entender lo que un sistema IVR está ‘diciendo’ cuando usa la concatenación para ‘pronunciar’ palabras usando fragmentos de grabaciones de audio de voces de artistas masculinos. Las grabaciones de audio de voces femeninas suenan extrañamente significativamente más naturales, se concatenan de manera más eficiente por la tecnología del sistema IVR y son más fáciles de entender cada vez que el sistema Interactive Voice Response “pronuncia mal” las palabras. Las ‘declaraciones erróneas’ siguen siendo comunes entre los sistemas integrados de dispositivos AI IVR con voz femenina, a veces humorísticamente, otras veces frustrantemente, pero en general, las voces IVR femeninas resultan más elocuentes y articuladas que las voces IVR masculinas a menudo, al menos en el estándar estadounidense Inglés.

Es bastante crítico para la función de los dispositivos que cuentan con la tecnología Interactive Voice Response que el usuario pueda entender lo que el dispositivo está diciendo, por lo que la mejor aproximación de una voz humana comprensible y de sonido natural es fundamental para un sistema AI IVR. La mayoría de las mejores aproximaciones del habla humana se crean a partir de grabaciones de voces de artistas de voz en off femeninas (a diferencia de las voces de artistas de voz en off masculinas, aunque existen excepciones, por supuesto).

No se porque. ¿Tiene que ver con la psicología humana? Absolutamente, sin duda. ¿Qué tiene que ver con la psicología humana? No estoy seguro, pero ahí está.

¿Cuál es el significado de una política estacionaria en el contexto del aprendizaje por refuerzo?

¿Cuáles son los ejemplos más exitosos de música creada por computadora?

¿Cómo empiezo a aprender las matemáticas y teorías necesarias para las redes neuronales y la IA?

¿Puede la inteligencia artificial hacerse consciente de sí misma?

¿Qué startups están trabajando en IA y ML?

¿Cómo se usa el aprendizaje automático en las finanzas?

¿Piensas que? Has visto lo bueno y lo malo. Ahora eche su mirada al mejor …

Multiverse Extreme – Aplicaciones de Android en Google Play

¿Cuántos de nosotros hemos querido irrumpir en secreto en la mansión de Tony Stark y robar a JARVIS? Porque, después de todo, ¿quién no quiere un asistente que sea Inteligencia Artificial, pero que también sea súper amigable? Bueno, ahora no tendrá que hacerlo, porque pasamos un tiempo en nuestros tableros de dibujo y creamos el nuestro. Presentando a usted, Multiverse EXtreme.

Ahora, también puede tener una IA que será el mejor asistente personal que haya podido encontrar. Período.

Todo lo que necesitas hacer es descargar la aplicación y comenzar tu viaje con Extreme.

Extreme es totalmente capaz de entender conversaciones en inglés y ofrecerte todo lo que puedes esperar de él. Y nos referimos a todo.

¿Quieres hacer que una pregunta salga de internet? Simplemente haga su pregunta a Extreme y deje que se encargue de obtener la respuesta a “¿Qué es la radiación?” como un jefe.

¿Quieres compartir algo en Facebook? Sé perezoso y solo di “Publicar en Facebook”

Extreme también es su experto en selfies de confianza, solo pregunte “Take a selfie” y se hará.

Nunca se pierda, con Extreme lo ayuda a encontrar lugares en Google Maps, ya sea en el centro de Venecia o en el oxidado Palampur.

Obtenga su primicia diaria sobre sus áreas de interés. Solo pídele a Extreme que te actualice, di: “Actualízame en el partido de fútbol de ayer”

¡Y no es solo esto, Extreme puede descargar y jugar cosas para usted, llamar / enviar mensajes de texto a sus amigos, enviar correos electrónicos a sus colegas e incluso responder llamadas telefónicas!

Aguante la respiración para obtener más actualizaciones (que son mensuales)

Extreme puede usar Skype, Whatsapp y usar muchas más aplicaciones principales, ¡todo lo que necesita hacer es descubrir sus capacidades!

Muévete sobre todos, EXtreme está en la casa.

Mantenga la calma y extrema.

Ejike Ogada

No estoy seguro de que la suposición en la pregunta sea correcta. Los sistemas GPS con los que estoy familiarizado ofrecen una opción de género para la voz y no todos son predeterminados para las mujeres. En cuanto a la inteligencia artificial como Siri y Google Now, esa es una muestra bastante pequeña para sacar conclusiones. Si ve respuestas a esta pregunta que no se vinculan con estudios científicos ni ofrecen experiencia de primera mano sobre el proceso de decisión que llevó a que determinados sistemas de voz se conviertan por defecto en hombres / mujeres, debe recordar que solo está leyendo las opiniones de las personas y trata las respuestas en consecuencia.

Como productor de una aplicación de texto a voz que se ajusta de manera predeterminada a una voz masculina (Soccer Aloud de Callionica), puedo decirle que hubo una serie de factores que influyeron en esa decisión, incluidos: la experiencia de usar la aplicación, las implicaciones tecnológicas de construir la aplicación con voces particulares, así como las consideraciones financieras en la distribución de la aplicación. La voz masculina que utilizamos es de alta calidad, nos da la oportunidad de producir una lectura muy fluida y natural, y es muy apropiada para los usuarios de nuestra aplicación, por lo que estamos muy contentos con nuestra decisión de usarla.

Fred Pagano

Supongo que más que la psicología, se trata de la calidad tonal y la suavidad de una voz femenina. Una voz masculina suena bastante dura para ser utilizada por un asistente personal. Mientras que la voz femenina es mucho más suave y agradable de escuchar. Esa es la razón principal. Y obviamente, una parte de la psicología también está allí, como has mencionado.

Ejike Ogada

Gran parte del trabajo pionero en esta área fue realizado por Bell Laboratories y MIT. Conocí al director del Laboratorio de Investigación de Electrónica del MIT, el profesor Jonathan Allen, que también estaba asociado con Bell. Me explicaron que en los primeros días de esta tecnología, las voces femeninas eran preferidas porque sonaban mejor cuando las diversas partes del discurso, fonemas, se grababan y luego se recombinaban para formar nuevas palabras sintetizadas. Se descubrió que las voces femeninas sonaban más eficientes y naturales. Al no ser un científico, las razones exactas de esto se me han perdido, pero es cierto que la razón básica de la prevalencia de las mujeres en las aplicaciones de síntesis de voz es la naturalidad y la claridad.

Fred Pagano

Creo totalmente que es psicología, una voz femenina tranquila es suave en comparación con la mayoría de las voces masculinas (a menos que el hombre sea un DJ de “Nothing But Love Songs”). Y existe el hecho de que este es un “gadget”, los gadgets tienden a ser utilizados más por hombres que por mujeres (probablemente un estereotipo REAL allí, tal vez dos, ya que supongo que a los hombres les gusta escuchar a las mujeres y las mujeres preferirían escuchar a los hombres) , pero el punto es que el GPS en mi teléfono y en ambos autos tiene la opción de cambiar a una voz masculina. Así que creo que, si bien la implementación inicial fue solo femenina, las preocupaciones que expresó han hecho que los fabricantes suministren voces alternativas, incluida la masculina. ¡Estoy esperando el día en que pueda obtener un acento británico, o un acento francés, para mi voz GPS!

Ejike Ogada

Está conectado con la psicología, las aplicaciones más utilizadas por usuarios masculinos. El usuario masculino prefiere la voz alta de las mujeres, esta es la explicación de por qué la compañía usó más voces femeninas. Espero eso ayude.

Fred Pagano

Estaba a punto de hacer una pregunta similar a esta, pero encontré que alguien ya la había hecho. Ahora para dar mis dos piezas; No estaré de acuerdo contigo @suvrat en una voz masculina que es dura. Los escucho en la estación de tren y no me desanimo de ninguna manera, todavía me subo al tren y tengo un viaje agradable, como si fuera una voz femenina.
Pensaré que está más en línea con la forma en que la mayoría de las cosas se comercializan con mujeres, incluso cuando no hay una necesidad obvia de retratar a una mujer en el anuncio.
Sugiero que en los tiempos enloquecidos de libertad de elección que vivimos debería haber una opción para alternar entre una voz masculina y una femenina.

Fred Pagano

More Interesting

La inteligencia artificial suena realmente sorprendente para los principiantes y fascinante para los principiantes. ¿Es realmente fascinante trabajar con él?

¿Merecerá la pena hacer un aprendizaje de verano de aprendizaje automático de Coursera, y seré elegible para construir mi propio proyecto usando conceptos de ML?

¿Qué tan 'eficiente' es agregar interacciones tensoriales en una red neuronal, en lugar de profundizar la red pero usando transformaciones afines más simples?

¿Cuáles son los conceptos erróneos más comunes sobre la IA?

Las computadoras se basan principalmente en conjuntos de características relacionadas con los cálculos, ¿por qué no se construyen con un nivel de interacciones conceptual y orientado al lenguaje?

¿Es aconsejable dejar que AI juegue videojuegos orientados al combate?

¿Qué pasa si las prostitutas son reemplazadas por robots?

En pocas palabras, ¿cómo se hace el aprendizaje automático con imágenes?

¿El libro de IBM Watson 'Cocina cognitiva con chef Watson' está protegido por derechos de autor?

¿Cómo podría ayudar el chip TrueNorth de IBM a mejorar Watson?