La convergencia de la inteligencia artificial, la adopción de teléfonos inteligentes y la disponibilidad de una gran cantidad de datos del consumidor está conduciendo a una nueva generación de asistentes virtuales. Los wearables también tienen un papel crucial: el reconocimiento de voz ahora está integrado en todos los principales sistemas operativos, lo que permite a los usuarios hablar con la máquina.
A pesar de que un ejército de científicos dedicó sus vidas a este desafío durante décadas, si piensas en la aplicación Siri, parece que todavía estamos lejos del sueño de hablar conversacionalmente con una máquina . La buena noticia es que la tecnología está mejorando rápidamente y los futuros asistentes virtuales podrán poner sus palabras en el contexto adecuado y responder en consecuencia.
La tarea es mucho más compleja de lo que piensas. En esta publicación voy a explicar por qué y visualizar futuros desarrollos. Las máquinas que hablan con la gente vienen de muy lejos. En 2003, DARPA invirtió enormemente en un proyecto quinquenal de 500 personas destinado a construir un asistente virtual. El gobierno quería desarrollar software para ayudar a los comandantes militares con la optimización de la comunicación. Este ayudante se llamaba CALO, el Asistente Cognitivo que Aprende y Organiza. Siri es entonces la progenie del proyecto de inteligencia artificial más grande en la historia de los Estados Unidos y ha sido llevado a la vida por 3 científicos que lanzaron una aplicación de iPhone independiente llamada Siri a principios de 2010. Varias semanas después del lanzamiento, recibieron una llamada telefónica que, supongo, sonaba así: “Hola, soy Steve. ¿Qué vas a hacer mañana? ¿Quieres venir a mi casa? ”. Fue Steve Jobs y Apple adquirió la tecnología por $ 150 a $ 250 millones en 2011. El problema es que Siri también es huérfano de Steve … murió el día después de que Siri debutó.
Entonces, ¿cómo funciona la aplicación Siri? ¿Por qué es tan difícil hablar con una máquina? ¿Y cuál es el potencial para el futuro?
Fase 1: reconocimiento de voz
Aparentemente es la parte fácil, pero es donde todo comienza, por lo que no puede ser trivial. Cuando le das un comando a Siri, tu dispositivo recoge tu voz analógica, la convierte en un archivo de audio (se traduce en código binario) y la envía a los servidores de Apple. Los matices de su voz, el ruido alrededor y las expresiones locales hacen que sea difícil hacerlo bien. Se llama Interfaz de usuario humano versus la Interfaz gráfica de usuario estándar a la que estamos acostumbrados. Aquí es importante que, todos los días, Apple recolecte millones de consultas de personas que hablan varios idiomas, con muchos acentos, mientras viven en diferentes continentes. En otras palabras, con sus acciones y errores, las personas están contribuyendo al mayor experimento de reconocimiento de voz de fuentes múltiples jamás probado en la tierra. La aplicación Siri hoy recibe aproximadamente mil millones de solicitudes por semana y Apple afirma que su capacidad de reconocimiento de voz tiene solo una tasa de error de palabras del 5 por ciento. El año pasado, Apple adquirió la compañía de reconocimiento de voz Novauris Technologies, una empresa derivada de Dragon Systems y también contrató a varios expertos en reconocimiento de voz para llegar a este punto.
Fase 2: envíe todo a los servidores de Apple en la nube
Siri no procesa su entrada de voz localmente en su teléfono. Esto es claramente un problema si no está conectado por algún motivo, pero de esta manera Apple obtiene dos beneficios principales:
- descargar gran parte del trabajo a computadoras potentes en lugar de consumir los recursos limitados del dispositivo móvil
- usar los datos que recopila para mejorar continuamente el servicio
El algoritmo identifica las palabras clave y comienza a llevarlo a las ramas del diagrama de flujo relacionadas con esas palabras clave para recuperar su respuesta. Si falla en este ejercicio, porque una parte de la comunicación no funciona, desciende por la rama del diagrama de flujo incorrecto. Si ocurre solo una vez, toda la consulta se arruina y termina en el resultado “¿Desea buscar eso en la web?”. Google Now y Cortana no son diferentes.
Entiendes que esto está lejos del concepto de conversación humana. La aplicación Siri todavía está construida con una lógica de preprogramación de todo el conjunto posible de preguntas y reglas para responder. Esto fue aún más evidente cuando, en octubre de 2015, Apple honró el día de “Regreso al futuro” al actualizar la aplicación Siri con al menos diez respuestas humorísticas relacionadas con la popular película Regreso al futuro. Mi favorito “tenga cuidado con quién sale hoy, o podría comenzar a desaparecer de las fotos …” es solo una respuesta que recoge al azar de la lista.
Fase 3: entender el significado
El proceso de comprensión de lo que pide el usuario se basa en un área de la ciencia llamada procesamiento del lenguaje natural . Las personas tienen docenas de formas de preguntar lo mismo. Podemos expresar un concepto usando infinitas combinaciones de palabras. “Estoy de humor para una pizza”, “¿Hay algún restaurante italiano cerca?”, “Me encantaría una Margherita hoy”. Los humanos pueden entender fácilmente lo que quiero decir, es obvio que Margherita no es una persona, pero un algoritmo debe ser sofisticado para llegar a la misma conclusión. A veces es solo porque las palabras tienen un sonido similar o están mal pronunciadas: la ostra y el avestruz, la escuela y el cráneo, el byte y la mordedura, la oveja y el barco y muchos otros complican la tarea.
Para simplificar su vida, el software de la aplicación Siri modela conceptos lingüísticos. Analiza cómo la palabra clave del sujeto está conectada a un objeto y un verbo. En otras palabras, analiza la estructura sintáctica del texto. La decisión de bajar una rama del diagrama de flujo u otro depende de sustantivos, adjetivos, verbos, así como de la entonación general de las oraciones. Además, Siri puede dar sentido a las preguntas y seguir los comandos. Esto no es exactamente lo que un humano llamaría “una conversación”, pero significa que comprende el contexto y es el punto de partida para futuros desarrollos.
Fase 4: transforma el significado en instrucciones procesables
Sabemos que Siri está aquí para ayudarnos, no solo para entender lo que decimos. En “La historia detrás de Siri”, el fundador Adam Cheyer dice: ” Recuerdo la primera vez que cargamos estas fuentes de datos en Siri, escribí” empezar de nuevo “en el sistema, y Siri regresó diciendo:” Buscando negocios llamados ‘Over ‘en Start, Louisiana. “” Oh, muchacho “, pensé. “.
Cuando la aplicación Siri entiende lo que quieres, tiene que dialogar con otras aplicaciones para que esto suceda. Y cada aplicación es diferente y parcialmente tiene su propio “lenguaje”. El sistema debe tener lo que se llama conocimiento de dominio , debe conocer el área temática de la que está hablando. En una conversación humana, esto sucede cada vez que hablamos con expertos en un campo determinado y usan palabras especializadas que apenas entendemos. Es obvio cuando hablamos con un médico, un arquitecto o una persona de finanzas, por ejemplo. Para la aplicación Siri es lo mismo. Cuando tiene que dar una dirección, reservar un vuelo o enviar un mensaje de texto, debe dialogar con otras aplicaciones … y comprender su contexto. Esto también es crucial. Si el protocolo no funciona, Siri puede dar instrucciones a otras aplicaciones para que realicen acciones que no requirió y esperaba o que incluso pueden ser potencialmente peligrosas para usted.
Por último, pero no menos importante, una vez que se ha procesado una solicitud, Siri debe convertir el resultado nuevamente en texto que pueda ser hablado al usuario. Si bien no es tan difícil como procesar el comando de un usuario, esta tarea, conocida como generación de lenguaje natural, aún presenta algunos desafíos. Hoy Siri habla con la voz estadounidense de “Samantha”, proporcionada por Susan Bennett en julio de 2005, la misma persona que expresó a Tillie la Cajera de todos los tiempos. Pero después de que Apple compró Siri, tuvieron que extender la capacidad a cientos de idiomas; y esa es otra razón por la cual la aplicación Siri no está creciendo tan rápido como la expectativa original.
Para leer más y colarse en el futuro de Siri, mira mi publicación
Este es el gran futuro de la aplicación Siri: adaptativa y predictiva