El habla es la mejor interfaz de computadora invisible
En los próximos 10 años, más del 50% de las interacciones informáticas se realizarán a través de la voz. La computadora, el dispositivo y la interfaz heredada desaparecerán, todo lo que persistirá es la volición, la intención, la interacción y los resultados.
En el verano de 1952, Bell Laboratories probó activamente Audrey (Automatic Digit Recognizer) [1], el primer sistema de reconocimiento de voz independiente del orador que decodificó los dígitos del número de teléfono hablado por teléfono para llamadas automatizadas asistidas por el operador.
- ¿Es fácil mantenerse actualizado en la industria de TI? ¿Es prácticamente posible, incluso a los 30 años o más de 45 años?
- ¿Los teléfonos inteligentes comienzan a retrasarse con el tiempo?
- ¿Cómo será hablar con alguien (por teléfono o radio) en un planeta con retraso de tiempo?
- En Mac Sierra, ¿puedes inspeccionar un elemento en la computadora portátil en lugar de solo Google Chrome?
- ¿Cuándo, si alguna vez, Silicon Valley saldrá del culto a la juventud?
Esquema de Audery, el primer sistema de reconocimiento de voz independiente del hablante.
En 1962, IBM demostró en la Feria Mundial su máquina “Shoebox” [2], que podía entender 16 palabras habladas en inglés y fue diseñada para ser una calculadora de voz.
Demostración de “Shoebox” de IBM en la Feria Mundial de 1962.
Avanzando en el tiempo hubo cientos de avances. La mayor parte de la historia del reconocimiento de voz estaba sumida en sistemas dependientes del hablante que requerían que el usuario leyera una historia muy larga o una agrupación de palabras. Incluso con este entrenamiento la precisión fue bastante pobre. Hubo muchas razones para esto, gran parte se basó en la potencia de los algoritmos de software y la potencia del procesador. Además, el reconocimiento continuo de voz, donde solo hablas de forma natural, solo se ha refinado en gran medida en los últimos 5 años.
En los últimos 10 años ha habido más avances que en los últimos 50 años. La línea desde 1952 hasta 2016 movió el reconocimiento de voz como uno de los avances tecnológicos más importantes en la historia de la computadora.
El habla requiere menos carga mecánica y carga cognitiva
La interfaz más potente y eficiente para la comunicación es la voz humana. Parece obvio en este contexto y ha tenido unos pocos millones de años de desarrollo evolutivo. Sin embargo, damos por sentado el discurso, ya que recientemente recurrimos a un sistema mecánico (escribir, hacer clic, señalar) para interactuar con las computadoras.
El habla humana es una herramienta mucho más refinada que puede transmitir instrucciones densamente empaquetadas y solicitudes in situ de manera más efectiva. La carga mecánica y la carga cognitiva en el ser humano es mucho menor cuando podemos pronunciar una frase como “Alexa, ¿cómo se ve mi viaje?” en comparación con los más de 30 pasos cognitivos y mecánicos que utilizan los mejores teléfonos inteligentes y las mejores aplicaciones. La alternativa al habla requiere la carga cognitiva en el cerebro y la carga mecánica para escribir con la carga cognitiva en el cerebro para interpretar lo que un mapa puede estar relacionando. Simplemente hacer una pregunta es mucho más superior.
Las interacciones basadas en el habla tienen fundamentalmente tres ventajas sobre los sistemas actuales:
- El habla es un medio ambiente en lugar de uno intencional (escribir, hacer clic, etc.). La actividad visual requiere una atención enfocada singular (una carga cognitiva) mientras que el habla nos permite hacer otra cosa.
- El discurso es descriptivo más que referencial . Cuando hablamos, describimos objetos en términos de sus roles y atributos. La mayoría de nuestras interacciones con las computadoras son referenciales.
- El discurso requiere recursos físicos más modestos . La interacción basada en el habla puede reducirse a factores de forma mucho más pequeños y mucho más baratos que las modalidades visuales o manuales.
El poder de los sistemas basados en el habla se ha vuelto profundamente poderoso con la adición de sistemas siempre en combinación con aprendizaje automático (Inteligencia Artificial), poder de cómputo basado en la nube y algoritmos altamente optimizados. El reconocimiento de voz se combina con voces de texto a voz casi vírgenes que se parecen tanto al habla humana que muchos perros entrenados recibirán órdenes de los mejores sistemas. Siri, Google Voice y Amazon Echo Alexa son los mejores ejemplos amigables para el consumidor de la combinación de reconocimiento de voz y productos de texto a voz en la actualidad.
Damos por sentado los procesos mecánicos que todos hemos adaptado para usar computadoras, podremos eliminar muchos, si no todos, estos pasos con una simple pregunta. Este proceso puede dividirse en 3 modos conceptuales básicos de operaciones de interfaz de voz:
- Does Things For You – Tarea completada:
– Múltiples criterios de búsqueda vertical y horizontal
– Combinación sobre la marcha de múltiples fuentes de información.
– Edición de información en tiempo real basada en criterios dinámicos.
– Puntos finales integrados, como la compra de boletos, etc.
- Obtiene lo que dices – Intento de conversación:
– Contexto de ubicación
– Contexto de tiempo
– Contexto de la tarea
– Contexto del diálogo
- Gets To Know You – Aprende y actúa sobre información personal:
– Quienes son tus amigos
– Dónde vives
– Cual es tu edad
– Qué te gusta
En la nube hay bastante trabajo pesado para producir un resultado aceptable. Esto abarca:
- Conciencia de ubicación
- Conciencia del tiempo
- Conciencia de tareas
- Datos semánticos
- Conexiones de API en la nube limitadas
- Modelos de tareas y dominios
- Interfaz conversacional
- Texto a intención
- Dictado a texto
- Texto a voz
- Dialog Flow
- Acceso a información personal y demografía
- Gráfico social
- Datos sociales
Las computadoras basadas en voz parecen tener límites sobre lo que se puede lograr. Sin embargo, cuando uno realmente analiza los resultados exactos que estamos buscando, la gran mayoría de las veces simplemente puede responderse con un “Sí” o un “No”. Cuando los sistemas de back-end analizan correctamente su volición e intención, se eliminan innumerables pasos de carga mecánica y cognitiva. Recientemente hemos entrado en una época, en este momento, donde todas las tecnologías correctas han convergido para hacer realidad la promesa de una interfaz de voz avanzada.
El secreto “Proyecto Doppler”, Yap, Evi e IVONA
Amazon sorprendió a casi todos en tecnología cuando se anunció el secreto ‘Proyecto Doppler’ o ‘Proyecto D’ de las oficinas de Lab126 en Silicon Valley y Cambridge, Massachusetts. El 6 de noviembre de 2014, esto fue una consecuencia de un proyecto de lector de libros electrónicos Kindle. que comenzó en 2010 y la adquisición de plataformas de voz que adquirió de Yap, Evi e IVONA.
La premisa original de Echo era ser un lector de libros portátil construido alrededor de un micrófono omnidireccional muy bien diseñado y potente y sorprendentemente buen altavoz WiFi / Bluetooth. Esta humilde misión pronto se transformó en una solución mucho más sólida que ahora está tomando forma para la mayoría de las personas.
Más allá del poder del hardware Echo está el poder de Amazon Web Services (AWS). AWS es una de las plataformas informáticas virtuales más grandes del mundo. Echo simplemente no funcionaría sin esta plataforma, ya que la electrónica local en Echo no es lo suficientemente potente como para analizar y responder a los comandos de voz sin los millones de procesadores que AWS tiene a su disposición.
Desde el lanzamiento limitado de 2014 de Echo, Amazon recientemente agregó Echo Dot, que es una versión del disco de hockey del Echo diseñada para conectarse a los altavoces existentes, ya que solo tiene un altavoz pequeño y el Amazon Tap, una versión portátil y más pequeña del Echo con altavoces estéreo duales Básicamente, todos funcionan igual.
La evolución de Echo se ha visto limitada y lentamente se agregan nuevas características. Hoy (4 de febrero de 2016, actualización del software de la versión 3077) Echo puede:
- Ordene artículos de Amazon tanto de pedidos anteriores como de la creación de nuevos pedidos.
- Cree listas de compras para usar en otras tiendas, no solo en Amazon.
- Lea libros de su biblioteca Kindle usando Text To Speech.
- Reproduce audiolibros de tu biblioteca Audible.
- Actualización deportiva con detalles como puntajes y próximos horarios para la NFL, NBA, MLS, MLB, NHL, WNBA, NCAA y otros deportes estadounidenses.
- Presente el clima y las noticias de una variedad de fuentes, incluidas las estaciones de radio locales, NPR, ESPN, TuneIn.
- Reproduzca música de las cuentas de Amazon Music del propietario y soporte integrado para Pandora, y el servicio de transmisión de música Spotify y servicios de transmisión como Apple Music y Google Play Music desde un teléfono o tableta.
- Soporte para IFTTT (If This, Then That) alarmas controladas por voz, temporizadores, compras y listas de tareas.
- Entrenador personal de entrenamiento usando la configuración de habilidades.
- Acceda a los artículos de Wikipedia.
- Responda a sus preguntas sobre los elementos en su calendario de Google.
- Se integra con Philips Hue, Belkin Wemo, SmartThings, Insteon y Wink con el apoyo anticipado de Countertop de Orange Chef, Scout Alarm, Garageio, Toymail, MARA y Mojio.
- Dar informes de tráfico.
- Llama a un auto de Uber.
- Afina una guitarra.
- Un conjunto creciente de desarrolladores de ASK (Alexia Speech Kit) “Skills” qusi-API.
Para muchos, esto es más que suficiente para justificar una compra de ~ $ 150 del Echo original. Estas características fueron suficientes para tener un Echo en la cocina, el baño principal (no en el área del baño) y en un automóvil. Tuve la suerte de tener uno a principios de diciembre de 2014 y lo encontré útil de formas que no podría haber predicho. En cada configuración hay casos de uso únicos y, en ocasiones, inesperados.
Eco en la cocina
En la cocina, Echo se ha vuelto indescriptible para crear listas de compras familiares. No hay forma de que regrese a la manera casual que fue reemplazada. Todos simplemente llamamos a Alexa para agregar X a la lista de compras durante la semana con una especie de frenesí de fregar el refrigerador, el congelador y los gabinetes en un esfuerzo grupal justo antes de ir de compras. Echo forma una conexión inesperada con las tiendas físicas que no son de Amazon. Es uno de los mayores descuidos de Amazon el no tener una manera fácil de convertir todo o parte de una lista de compras en un pedido de Amazon. Estoy seguro de que este déficit se abordará pronto.
Echo también es muy útil en situaciones de cocina. Temporizadores, temporizadores y temporizadores, nunca usé tantos temporizadores y francamente debería haberlo hecho. Las conversiones de medición y los ajustes y recomendaciones de recetas también han sido muy útiles.
Echo en la cocina también es una pieza central para la familia con mis dos hijos haciéndole tantas preguntas a Alexa como a mí: “Alexa, ¿por qué el cielo es azul?”. Tenemos una especie de juego en el que vemos quién puede responder una pregunta más rápido que Alexa, gano bastante pero mis hijos se han puesto al día. Veo a Echo tan importante como cualquier enciclopedia o libro de texto escolar para la educación. Esto se extiende a los libros que he narrado durante el desayuno y algunas otras comidas que parecen cautivarnos a todos y promover preguntas e ideas de las mentes de los niños curiosos.
Eco en el baño
Seamos sinceros, incluso la persona más despreocupada pasa bastante tiempo en el baño preparándose para el día. La mayoría de nosotros (56%) tardamos entre 11 y 30 minutos en prepararse [3]. Eso significa que el 30% de los estadounidenses pasan más de una semana preparándose en el baño cada año. Mi esposa y yo usamos este tiempo para establecer listas de tareas pendientes, listas de compras, escuchar libros y música, y lo más indispensable para mí, tomar notas para ideas y enviar un Tweet ocasional. Desde diciembre de 2014, Alexa y Audible me han leído ~ 45 libros mientras me preparaba. Es una poderosa herramienta de aprendizaje, estos son 45 libros que probablemente habría tenido que leer en otros momentos y tal vez en conflicto con otras cosas que quería hacer.
He podido hackear una forma no elegante de usar Echo para leer las publicaciones de Quora y puedo decir que esto realmente ha extendido mi consumo del trabajo de las mentes más increíbles del mundo en Quora. Mi método es un truco feo que espero se haga bonito en el futuro.
También configuré el termostato Nest a través de la aplicación IF (ifttt) a una temperatura agradable por la mañana. Así como establecer la temperatura final durante la noche. Aunque todavía no tengo un eco en el dormitorio principal, por la noche pongo música ligera que llena la habitación con un sonido más que adecuado.
Eco en el coche
Soy investigador y esto me obliga a probar lo inesperado y extremo. Por lo tanto, quería probar cuán efectivo y útil sería Echo en el automóvil. Esto fue en enero de 2015 y Echo todavía no estaba en una amplia distribución y estoy bastante seguro de que fui uno de los pioneros aquí.
El eco en el automóvil se volvió absolutamente indispensable, tal vez incluso más que en la cocina. Por razones obvias, conducir requiere una cantidad mínima de distracciones. Uso Echo para las mismas cosas que hago en casa, pero en muchos sentidos es más efectivo. Uso Echo para leer mucho Quora, noticias y libros mientras estoy de viaje. El truco que utilizo para publicar en Twitter es útil cuando una secuencia de ideas me solicita.
Las pocas horas a la semana que paso en el camino me han permitido acceder a miles de publicaciones de Quora, titulares diarios, algunos cientos de Tweets y alrededor de 31 libros desde diciembre de 2014.
El experimento se hizo permanente en el momento en que pude instalar otra unidad en el automóvil. El automóvil tiene un punto de acceso de AT&T incorporado y en realidad solo agregó alrededor de $ 15 por mes con todo mi uso. También tengo un enchufe de 120 VCA incorporado y encontré una especie de ubicación correcta para Echo en el automóvil.
Alexa, Google o Siri? Yo digo sí a todos
Viviendo y trabajando con Echo en tres ubicaciones principales durante más de un año, estoy completamente convencido de que Echo y los muchos productos que veo que vendrán en el futuro dominarán nuestros hogares y vehículos. Creo que es importante agregar que también soy un gran usuario de Siri de Apple y escribí bastante sobre esto aquí en Quora [4]. Veo a Echo y Siri como similares pero bastante diferentes en algunos niveles fundamentales. Siri para mí es muy útil y bastante indispensable para contestar mensajes de texto y componer pequeñas o medianas cantidades de texto dictado. De hecho, alrededor del 40% de esta publicación se compone con Siri. Para mí, nunca será una situación de uno u otro, sino una rica mezcla de usos que cada sistema hace mejor. También uso Google Voice hasta cierto punto principalmente para búsquedas, de hecho, todas las búsquedas que utilicé para esta publicación se realizaron con Google Voice.
Como mencioné anteriormente, incluso Amazon está en los primeros días con Echo con la incapacidad de convertir una lista de compras en un pedido de Amazon en vivo. Cuando se lanzó Siri, escribí bastante sobre el aspecto comercial de Siri y el discurso en general [5]. Escribí sobre la posibilidad de que Siri (o cualquier sistema basado en voz) se convierta en un sistema de finalización de transacciones. Escribí sobre un futuro en 2011 que estaba seguro de que Apple adoptaría mucho más rápido de lo que lo han hecho. Estaba escribiendo acerca de que Apple también entró en pagos en ese momento y sabía que el producto que se convirtió en Apple Pay tuvo que ser lanzado primero. Esto finalmente tuvo lugar en octubre de 2014. Apple ha realizado muchas mejoras y actualizaciones a Siri, pero hasta ahora se ha sentido de alguna manera detrás de Amazon Echo. Estoy bastante seguro de que con Apple Pay 4.0 y los cambios realmente grandes en Siri que estoy prediciendo, Apple quizás superará a Amazon. Ya vemos una pista de esto con la última versión de Apple TV.
Las API son el futuro de las interfaces de voz
La tecnología del habla en marzo de 2016 es bastante rica y útil y si la evolución se detuviera hoy, ya habría tenido un lugar permanente en mi vida y en la vida de mi familia. Pero, por supuesto, la innovación no se detendrá aquí. Hay un gran futuro por delante con la posibilidad de abrir API de Amazon, Apple y Google que ampliarán la usabilidad de Speech para extender mucho más los casos de uso. Escribí sobre las perspectivas de cómo las API pueden ser el elemento más definitorio de una interfaz de voz en 2011 con el lanzamiento de Siri [6]. La ontología de la información a la que accede una interfaz de voz continuará expandiéndose con un mayor impulso en 2016. Además, el acceso a controlar todo, desde luces hasta cafeteras a través de una interfaz de voz, también ganará un mayor impulso en 2016. Hasta ahora, ninguna de las tres interfaces de voz grandes tener API abiertas y útiles, pero esto cambiará. Aunque Amazon está en camino con Alexa Skill Kit [7].
Muestra del patrón de flujo de Alexa Skills.
Educación, comercio y publicidad son las “aplicaciones asesinas” para Amazon Echo
Educación : para mí es muy claro después de un año con Echo que la educación es un aspecto fundamental de esta tecnología pero aún no se ha descubierto. Tanto es así que creo que en los próximos cinco años muchos estudiantes encontrarán que este tipo de interfaz de voz como guía de estudio es casi común. Amazon y Google se encuentran en una posición única para aprovechar su enorme inventario de información indexada en un sistema experto basado en voz con tecnología avanzada de aprendizaje automático.
Comercio : El comercio parece lógico al inicio de Echo, pero como mencioné, esta no fue la fuerza impulsora fundamental durante el desarrollo del “Proyecto Doppler”. Era una extensión de Kindle llevada al extremo. Por lo tanto, no es sorprendente que Amazon se esté poniendo al día con el elemento comercial de Echo. Puede ordenar artículos, por supuesto, hoy, pero el gasto debe evolucionar. La conexión externa a Domino’s Pizza presenta cuán profundamente pueden llegar las API.
Publicidad : La relación de Domino’s Pizza presenta un nuevo modelo de publicidad que bien podría cambiar toda la industria. Al igual que el modelo de pago por clic que Google refinó en la década de 1990, el modelo de pedido de pago por voz puede convertirse en una plataforma dominante. Amazon, Google y Apple pueden controlar este futuro donde las API y los sistemas de pago integrados de estas compañías completan las transacciones con casi cualquier comerciante por casi cualquier producto. Más del 75% de las ventas en Amazon.com son de vendedores del mercado y no de Amazon. Amazon tiene una gran experiencia como plataforma de publicidad y pagos y estoy seguro de que Echo definirá este nuevo modelo de publicidad.
“Alexa pide una pizza de queso grande”
Estos son los fundamentos básicos de por qué las interfaces de voz prosperarán en el futuro. Si incluso uno domina a corto plazo, será una revolución. Claramente, el aspecto de comercio y pagos es quizás el elemento más importante a corto plazo. Hoy puedes sentarte en tu cocina y decir “Alexa, pide una pizza grande de Domino’s”. Se entregará en unos 30 minutos y ya habrá sido pagado. Imagine cuántos pasos mecánicos y cognitivos reemplaza este comando de seis palabras. Lo he estudiado, hay más de 200 pasos de “demolición”.
Puede parecer que Amazon dominará este espacio. Afirmo firmemente (y durante los últimos 3 años a los clientes) que después de Apple Pay, el comercio de voz es la mayor oportunidad de pago en esta época. En pocas palabras, es muy probable que alguien en un garaje esté construyendo las bases para esta nueva solución de pagos y comercio. Los “ganadores” de hoy no tienen garantía de ser “ganadores” en este nuevo mundo de comercio de voz. No se trata de pagos minoristas ni de pagos basados en la aplicación o en la web por muchas razones fundamentales.
El comercio de voz, como lo mostrará la historia, es un paradigma completamente nuevo y único. He estudiado todos los aspectos de las interfaces de voz con atención al comercio y los pagos durante más de 20 años y estamos a la expectativa de algo revolucionario. He identificado una hoja de ruta de más de 200 puntos sobre cómo se desarrollarán nuevos paradigmas de pago, nuevo hardware que no sea de Amazon y nuevos negocios en este ecosistema. Hasta el momento, ni una sola empresa de pagos o una empresa heredada está posicionada para comprender no solo esta oportunidad, sino que puede estar alejándose de ella.
Echo, una novedad?
Estoy seguro de que en la era de las tarjetas perforadas como la interfaz de usuario principal para una computadora, un teclado parecía una novedad. Puedo dar fe de que en la era en que un teclado como interfaz de usuario principal, el mouse se consideraba una novedad. Finalmente, la pantalla táctil fue vista como una novedad en la era del micro teclado Blackberry.
Demostración de la interfaz de IBM’Punch Card en un momento en que el teclado y la pantalla se consideraban una novedad.
El teclado golpeó la tarjeta perforada. El mouse coexistió con el teclado. La pantalla táctil hizo redundante el teclado mecánico. En el futuro, solo las interfaces de voz harán redundante la necesidad de todas estas cosas para un número creciente de tareas. Nos extraeremos de los procesos mecánicos y cognitivos de las tareas que realizamos hoy y usaremos nuestras voces para controlar estos sistemas tan poderosos en la nube. Estos sistemas harán todo el trabajo completando las tareas y nos informarán cuando hayan terminado.
Los autos sin conductor requerirán una interfaz de voz para el control y la interacción. Hay pocas dudas de que esta tecnología será de importancia crítica. Muy parecido a cómo uso Echo en el automóvil hoy, estoy seguro de que esto también se convertirá en una forma popular de consumir información en esta configuración.
Las interfaces basadas en voz le permiten realizar múltiples tareas y hacer otras cosas. A diferencia del paradigma de usar un dispositivo y leer una pantalla, usar su voz es liberador y aumenta la productividad hasta un punto que simplemente no es posible solo con interfaces mecánicas.
La computadora tal como la conocemos se ha reducido y, en muchos sentidos, desaparecerá y se convertirá en un nexo que nos conectará a través del habla. Todavía habrá pantallas táctiles y quizás auriculares VR, incluso quizás pantallas efímeras holográficas en los próximos 10 años. Sin embargo, las interfaces de voz continuarán creciendo y complementarán estas experiencias.
Un año de uso de Echo me ha informado que la confianza descarada de ser una interfaz de voz independiente siempre es su mayor fortaleza. A diferencia de un apéndice de un televisor, teléfono inteligente o navegador web, Echo realmente define el espacio físico donde vive. Es notable lo rápido que me he acostumbrado a entrar en una habitación y a dirigirme a Echo instantáneamente con una solicitud. Puedo ver claramente a dónde nos llevará esto a todos.
El destino final de la interfaz de voz será un sistema robótico humanoide anotómico que, al igual que una película de ciencia ficción, interactuará fundamentalmente con nosotros a través de la voz. Esta característica no es una idea de último momento, sino la pieza central de los robots humanoides que sin duda tendremos en el futuro.
Lo que llamamos una computadora cambiará fundamental y profundamente, nuestro bisnieto se maravillará con el teclado y el mouse y tal vez incluso con una pantalla táctil. Verán estas interfaces de usuario como una novedad histórica.
Hemos viajado muy lejos desde Audrey en 1952. Echo, ¿una novedad? No, Alexa somos nosotros recién comenzando.
_____
[1] Mecánica popular
[2] http://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html
[3] La rutina de la mañana: el 30% dedica más de una semana a prepararse cada año
[4] La respuesta de Brian Roemmele a ¿Por qué es importante Siri?
[5] La respuesta de Brian Roemmele a ¿Siri se convertirá en un sistema de finalización de transacciones?
[6] La respuesta de Brian Roemmele a ¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con ella?
[7] Kit de habilidades de Alexa (PREGUNTAR)