¿Cómo funciona Siri?

SIRI es una rama del proyecto financiado por DARPA, CALO. Fue parte de la iniciativa PAL de DARPA (Asistente personalizado que aprende).

SIRI (y CALO) implican una serie de tecnologías, que incluyen procesamiento de lenguaje natural, análisis de preguntas, mashups de datos y aprendizaje automático.

Probablemente hay más de 100 artículos publicados sobre CALO (las tecnologías subyacentes utilizadas en SIRI), disponibles en el sitio web de CALO. Para leerlos, consulte la siguiente URL:

https://pal.sri.com/Plone/public…

Las publicaciones relacionadas con el proyecto aparecen bajo los encabezados PAL y RADAR y se remontan a 5 años.

Sin embargo, vale la pena señalar que SIRI realmente solo utiliza una parte de las tecnologías desarrolladas como parte del proyecto CALO. CALO hace cosas como el análisis de la mirada y los gestos, el análisis en tiempo real de la actividad del analista en una estación de trabajo de la computadora y muchas otras cosas; no las encontrará en SIRI.

Las tareas principales de SIRI, en un alto nivel, implican:

  1. Uso de ASR (reconocimiento automático de voz) para transcribir la voz humana (en este caso, breves enunciados de comandos, preguntas o dictados) en texto.
  2. Uso del procesamiento del lenguaje natural (parte del etiquetado del habla, agrupación de frases sustantivas, dependencia y análisis de componentes) para traducir el texto transcrito en “texto analizado”.
  3. Uso de análisis de preguntas e intenciones para analizar texto analizado, detectar comandos y acciones del usuario. (“Programar una reunión”, “Configurar mi alarma”, …)
  4. Uso de tecnologías de mashup de datos para interactuar con servicios web de terceros como OpenTable, WolframAlpha, para realizar acciones, operaciones de búsqueda y responder preguntas (Utterances SIRI ha identificado como una pregunta, que no puede responder directamente, remitirá a una pregunta más general -servicios de respuesta como WolframAlpha)
  5. Transformación de la salida de servicios web de terceros a texto en lenguaje natural (p. Ej., Informe meteorológico de hoy -> “El clima estará soleado”)
  6. Uso de tecnologías TTS (texto a voz) para transformar el texto del lenguaje natural del paso 5 anterior en voz sintetizada.

Obviamente, esto es una simplificación de lo que está involucrado, pero debería dar una idea general de lo que está haciendo SIRI.

La convergencia de la inteligencia artificial, la adopción de teléfonos inteligentes y la disponibilidad de una gran cantidad de datos del consumidor está conduciendo a una nueva generación de asistentes virtuales. Los wearables también tienen un papel crucial: el reconocimiento de voz ahora está integrado en todos los principales sistemas operativos, lo que permite a los usuarios hablar con la máquina.
A pesar de que un ejército de científicos dedicó sus vidas a este desafío durante décadas, si piensas en la aplicación Siri, parece que todavía estamos lejos del sueño de hablar conversacionalmente con una máquina . La buena noticia es que la tecnología está mejorando rápidamente y los futuros asistentes virtuales podrán poner sus palabras en el contexto adecuado y responder en consecuencia.
La tarea es mucho más compleja de lo que piensas. En esta publicación voy a explicar por qué y visualizar futuros desarrollos. Las máquinas que hablan con la gente vienen de muy lejos. En 2003, DARPA invirtió enormemente en un proyecto quinquenal de 500 personas destinado a construir un asistente virtual. El gobierno quería desarrollar software para ayudar a los comandantes militares con la optimización de la comunicación. Este ayudante se llamaba CALO, el Asistente Cognitivo que Aprende y Organiza. Siri es entonces la progenie del proyecto de inteligencia artificial más grande en la historia de los Estados Unidos y ha sido llevado a la vida por 3 científicos que lanzaron una aplicación de iPhone independiente llamada Siri a principios de 2010. Varias semanas después del lanzamiento, recibieron una llamada telefónica que, supongo, sonaba así: “Hola, soy Steve. ¿Qué vas a hacer mañana? ¿Quieres venir a mi casa? ”. Fue Steve Jobs y Apple adquirió la tecnología por $ 150 a $ 250 millones en 2011. El problema es que Siri también es huérfano de Steve … murió el día después de que Siri debutó.
Entonces, ¿cómo funciona la aplicación Siri? ¿Por qué es tan difícil hablar con una máquina? ¿Y cuál es el potencial para el futuro?
Fase 1: reconocimiento de voz
Aparentemente es la parte fácil, pero es donde todo comienza, por lo que no puede ser trivial. Cuando le das un comando a Siri, tu dispositivo recoge tu voz analógica, la convierte en un archivo de audio (se traduce en código binario) y la envía a los servidores de Apple. Los matices de su voz, el ruido alrededor y las expresiones locales hacen que sea difícil hacerlo bien. Se llama Interfaz de usuario humano versus la Interfaz gráfica de usuario estándar a la que estamos acostumbrados. Aquí es importante que, todos los días, Apple recolecte millones de consultas de personas que hablan varios idiomas, con muchos acentos, mientras viven en diferentes continentes. En otras palabras, con sus acciones y errores, las personas están contribuyendo al mayor experimento de reconocimiento de voz de fuentes múltiples jamás probado en la tierra. La aplicación Siri hoy recibe aproximadamente mil millones de solicitudes por semana y Apple afirma que su capacidad de reconocimiento de voz tiene solo una tasa de error de palabras del 5 por ciento. El año pasado, Apple adquirió la compañía de reconocimiento de voz Novauris Technologies, una empresa derivada de Dragon Systems y también contrató a varios expertos en reconocimiento de voz para llegar a este punto.
Fase 2: envíe todo a los servidores de Apple en la nube
Siri no procesa su entrada de voz localmente en su teléfono. Esto es claramente un problema si no está conectado por algún motivo, pero de esta manera Apple obtiene dos beneficios principales:

  • descargar gran parte del trabajo a computadoras potentes en lugar de consumir los recursos limitados del dispositivo móvil
  • usar los datos que recopila para mejorar continuamente el servicio

El algoritmo identifica las palabras clave y comienza a llevarlo a las ramas del diagrama de flujo relacionadas con esas palabras clave para recuperar su respuesta. Si falla en este ejercicio, porque una parte de la comunicación no funciona, desciende por la rama del diagrama de flujo incorrecto. Si ocurre solo una vez, toda la consulta se arruina y termina en el resultado “¿Desea buscar eso en la web?”. Google Now y Cortana no son diferentes.
Entiendes que esto está lejos del concepto de conversación humana. La aplicación Siri todavía está construida con una lógica de preprogramación de todo el conjunto posible de preguntas y reglas para responder. Esto fue aún más evidente cuando, en octubre de 2015, Apple honró el día de “Regreso al futuro” al actualizar la aplicación Siri con al menos diez respuestas humorísticas relacionadas con la popular película Regreso al futuro. Mi favorito “tenga cuidado con quién sale hoy, o podría comenzar a desaparecer de las fotos …” es solo una respuesta que recoge al azar de la lista.
Fase 3: entender el significado
El proceso de comprensión de lo que pide el usuario se basa en un área de la ciencia llamada procesamiento del lenguaje natural . Las personas tienen docenas de formas de preguntar lo mismo. Podemos expresar un concepto usando infinitas combinaciones de palabras. “Estoy de humor para una pizza”, “¿Hay algún restaurante italiano cerca?”, “Me encantaría una Margherita hoy”. Los humanos pueden entender fácilmente lo que quiero decir, es obvio que Margherita no es una persona, pero un algoritmo debe ser sofisticado para llegar a la misma conclusión. A veces es solo porque las palabras tienen un sonido similar o están mal pronunciadas: la ostra y el avestruz, la escuela y el cráneo, el byte y la mordedura, la oveja y el barco y muchos otros complican la tarea.
Para simplificar su vida, el software de la aplicación Siri modela conceptos lingüísticos. Analiza cómo la palabra clave del sujeto está conectada a un objeto y un verbo. En otras palabras, analiza la estructura sintáctica del texto. La decisión de bajar una rama del diagrama de flujo u otro depende de sustantivos, adjetivos, verbos, así como de la entonación general de las oraciones. Además, Siri puede dar sentido a las preguntas y seguir los comandos. Esto no es exactamente lo que un humano llamaría “una conversación”, pero significa que comprende el contexto y es el punto de partida para futuros desarrollos.
Fase 4: transforma el significado en instrucciones procesables
Sabemos que Siri está aquí para ayudarnos, no solo para entender lo que decimos. En “La historia detrás de Siri”, el fundador Adam Cheyer dice: ” Recuerdo la primera vez que cargamos estas fuentes de datos en Siri, escribí” empezar de nuevo “en el sistema, y ​​Siri regresó diciendo:” Buscando negocios llamados ‘Over ‘en Start, Louisiana. “” Oh, muchacho “, pensé. “.
Cuando la aplicación Siri entiende lo que quieres, tiene que dialogar con otras aplicaciones para que esto suceda. Y cada aplicación es diferente y parcialmente tiene su propio “lenguaje”. El sistema debe tener lo que se llama conocimiento de dominio , debe conocer el área temática de la que está hablando. En una conversación humana, esto sucede cada vez que hablamos con expertos en un campo determinado y usan palabras especializadas que apenas entendemos. Es obvio cuando hablamos con un médico, un arquitecto o una persona de finanzas, por ejemplo. Para la aplicación Siri es lo mismo. Cuando tiene que dar una dirección, reservar un vuelo o enviar un mensaje de texto, debe dialogar con otras aplicaciones … y comprender su contexto. Esto también es crucial. Si el protocolo no funciona, Siri puede dar instrucciones a otras aplicaciones para que realicen acciones que no requirió y esperaba o que incluso pueden ser potencialmente peligrosas para usted.
Por último, pero no menos importante, una vez que se ha procesado una solicitud, Siri debe convertir el resultado nuevamente en texto que pueda ser hablado al usuario. Si bien no es tan difícil como procesar el comando de un usuario, esta tarea, conocida como generación de lenguaje natural, aún presenta algunos desafíos. Hoy Siri habla con la voz estadounidense de “Samantha”, proporcionada por Susan Bennett en julio de 2005, la misma persona que expresó a Tillie la Cajera de todos los tiempos. Pero después de que Apple compró Siri, tuvieron que extender la capacidad a cientos de idiomas; y esa es otra razón por la cual la aplicación Siri no está creciendo tan rápido como la expectativa original.
Para leer más y colarse en el futuro de Siri, mira mi publicación
Este es el gran futuro de la aplicación Siri: adaptativa y predictiva

Tom Gruber fue el cofundador de Siri y su CTO antes de que Apple lo adquiriera. Si aprende sobre sus antecedentes y lee sus documentos, arrojará algo de luz sobre el tema: http://tomgruber.org/bio/short-b

Foto vía tomgruber.org.

Gruber es bien conocido en el campo de la Inteligencia Artificial, según Paul Miller, de Cloud of Data : http://cloudofdata.com/2009/06/t… . Según recuerdo, existe una conexión entre el esfuerzo de Gruber y la investigación básica realizada en SRI International en un proyecto llamado CALO financiado por el Departamento de Defensa de los Estados Unidos. Esta pieza en Wired parece tener buenos detalles sobre ese tema: http://www.wired.com/gadgetlab/2

Brian Roemmel publicó una buena respuesta previamente a ¿Es Quora importante para Siri? Principalmente proporciona antecedentes sobre ontologías y por qué son importantes.

Siri también confía en la tecnología de reconocimiento de voz de Nuance, según TechCrunch : http://techcrunch.com/2011/05/06

Hay muchas preguntas y respuestas de Quora publicadas sobre este tema: Siri (software). Muchas variantes de esta pregunta pueden haber extraído algunos buenos detalles de respuesta más allá de los conceptos básicos anteriores.

Es posible que esté muy familiarizado con las características que responden y reaccionan de acuerdo con sus sugerencias e instrucciones, y Siri es la mejor entre ellas. Por lo tanto, Siri se ha desarrollado utilizando un mecanismo de inteligencia artificial que funciona como asistente personal para los usuarios que utilizan dispositivos fabricados por Apple Corporation.

Siri podría entenderse como la interfaz de interpretación y reconocimiento de voz y es una parte importante de los dispositivos de gama alta de Apple. La función Siri se lanzó cuando Apple lanzó su modelo de iPhone 4s y ahora en 2017, se considera la característica más sofisticada que adoran casi todos los usuarios.

Lea más aquí: ¡Hola! Siri