¿Amazon Echo (y / o Siri y otros asistentes de voz) es realmente útil, o es solo una novedad? ¿Están creciendo el uso y la retención de estos productos?

El habla es la mejor interfaz de computadora invisible

En los próximos 10 años, más del 50% de las interacciones informáticas se realizarán a través de la voz. La computadora, el dispositivo y la interfaz heredada desaparecerán, todo lo que persistirá es la volición, la intención, la interacción y los resultados.

En el verano de 1952, Bell Laboratories probó activamente Audrey (Automatic Digit Recognizer) [1], el primer sistema de reconocimiento de voz independiente del orador que decodificó los dígitos del número de teléfono hablado por teléfono para llamadas automatizadas asistidas por el operador.

Esquema de Audery, el primer sistema de reconocimiento de voz independiente del hablante.

En 1962, IBM demostró en la Feria Mundial su máquina “Shoebox” [2], que podía entender 16 palabras habladas en inglés y fue diseñada para ser una calculadora de voz.

Demostración de “Shoebox” de IBM en la Feria Mundial de 1962.

Avanzando en el tiempo hubo cientos de avances. La mayor parte de la historia del reconocimiento de voz estaba sumida en sistemas dependientes del hablante que requerían que el usuario leyera una historia muy larga o una agrupación de palabras. Incluso con este entrenamiento la precisión fue bastante pobre. Hubo muchas razones para esto, gran parte se basó en la potencia de los algoritmos de software y la potencia del procesador. Además, el reconocimiento continuo de voz, donde solo hablas de forma natural, solo se ha refinado en gran medida en los últimos 5 años.

En los últimos 10 años ha habido más avances que en los últimos 50 años. La línea desde 1952 hasta 2016 movió el reconocimiento de voz como uno de los avances tecnológicos más importantes en la historia de la computadora.

El habla requiere menos carga mecánica y carga cognitiva

La interfaz más potente y eficiente para la comunicación es la voz humana. Parece obvio en este contexto y ha tenido unos pocos millones de años de desarrollo evolutivo. Sin embargo, damos por sentado el discurso, ya que recientemente recurrimos a un sistema mecánico (escribir, hacer clic, señalar) para interactuar con las computadoras.

El habla humana es una herramienta mucho más refinada que puede transmitir instrucciones densamente empaquetadas y solicitudes in situ de manera más efectiva. La carga mecánica y la carga cognitiva en el ser humano es mucho menor cuando podemos pronunciar una frase como “Alexa, ¿cómo se ve mi viaje?” en comparación con los más de 30 pasos cognitivos y mecánicos que utilizan los mejores teléfonos inteligentes y las mejores aplicaciones. La alternativa al habla requiere la carga cognitiva en el cerebro y la carga mecánica para escribir con la carga cognitiva en el cerebro para interpretar lo que un mapa puede estar relacionando. Simplemente hacer una pregunta es mucho más superior.

Las interacciones basadas en el habla tienen fundamentalmente tres ventajas sobre los sistemas actuales:

El habla es un medio ambiente en lugar de uno intencional (escribir, hacer clic, etc.). La actividad visual requiere una atención enfocada singular (una carga cognitiva) mientras que el habla nos permite hacer otra cosa.
El discurso es descriptivo más que referencial . Cuando hablamos, describimos objetos en términos de sus roles y atributos. La mayoría de nuestras interacciones con las computadoras son referenciales.
El discurso requiere recursos físicos más modestos . La interacción basada en el habla puede reducirse a factores de forma mucho más pequeños y mucho más baratos que las modalidades visuales o manuales.

El poder de los sistemas basados en el habla se ha vuelto profundamente poderoso con la adición de sistemas siempre en combinación con aprendizaje automático (Inteligencia Artificial), poder de cómputo basado en la nube y algoritmos altamente optimizados. El reconocimiento de voz se combina con voces de texto a voz casi vírgenes que se parecen tanto al habla humana que muchos perros entrenados recibirán órdenes de los mejores sistemas. Siri, Google Voice y Amazon Echo Alexa son los mejores ejemplos amigables para el consumidor de la combinación de reconocimiento de voz y productos de texto a voz en la actualidad.

Damos por sentado los procesos mecánicos que todos hemos adaptado para usar computadoras, podremos eliminar muchos, si no todos, estos pasos con una simple pregunta. Este proceso puede dividirse en 3 modos conceptuales básicos de operaciones de interfaz de voz:

Does Things For You – Tarea completada:

– Múltiples criterios de búsqueda vertical y horizontal
– Combinación sobre la marcha de múltiples fuentes de información.
– Edición de información en tiempo real basada en criterios dinámicos.
– Puntos finales integrados, como la compra de boletos, etc.

Obtiene lo que dices – Intento de conversación:

– Contexto de ubicación
– Contexto de tiempo
– Contexto de la tarea
– Contexto del diálogo

Gets To Know You – Aprende y actúa sobre información personal:

– Quienes son tus amigos
– Dónde vives
– Cual es tu edad
– Qué te gusta

En la nube hay bastante trabajo pesado para producir un resultado aceptable. Esto abarca:

Conciencia de ubicación
Conciencia del tiempo
Conciencia de tareas
Datos semánticos
Conexiones de API en la nube limitadas
Modelos de tareas y dominios
Interfaz conversacional
Texto a intención
Dictado a texto
Texto a voz
Dialog Flow
Acceso a información personal y demografía
Gráfico social
Datos sociales

Las computadoras basadas en voz parecen tener límites sobre lo que se puede lograr. Sin embargo, cuando uno realmente analiza los resultados exactos que estamos buscando, la gran mayoría de las veces simplemente puede responderse con un “Sí” o un “No”. Cuando los sistemas de back-end analizan correctamente su volición e intención, se eliminan innumerables pasos de carga mecánica y cognitiva. Recientemente hemos entrado en una época, en este momento, donde todas las tecnologías correctas han convergido para hacer realidad la promesa de una interfaz de voz avanzada.

El secreto “Proyecto Doppler”, Yap, Evi e IVONA

Amazon sorprendió a casi todos en tecnología cuando se anunció el secreto ‘Proyecto Doppler’ o ‘Proyecto D’ de las oficinas de Lab126 en Silicon Valley y Cambridge, Massachusetts. El 6 de noviembre de 2014, esto fue una consecuencia de un proyecto de lector de libros electrónicos Kindle. que comenzó en 2010 y la adquisición de plataformas de voz que adquirió de Yap, Evi e IVONA.

La premisa original de Echo era ser un lector de libros portátil construido alrededor de un micrófono omnidireccional muy bien diseñado y potente y sorprendentemente buen altavoz WiFi / Bluetooth. Esta humilde misión pronto se transformó en una solución mucho más sólida que ahora está tomando forma para la mayoría de las personas.

Más allá del poder del hardware Echo está el poder de Amazon Web Services (AWS). AWS es una de las plataformas informáticas virtuales más grandes del mundo. Echo simplemente no funcionaría sin esta plataforma, ya que la electrónica local en Echo no es lo suficientemente potente como para analizar y responder a los comandos de voz sin los millones de procesadores que AWS tiene a su disposición.

Desde el lanzamiento limitado de 2014 de Echo, Amazon recientemente agregó Echo Dot, que es una versión del disco de hockey del Echo diseñada para conectarse a los altavoces existentes, ya que solo tiene un altavoz pequeño y el Amazon Tap, una versión portátil y más pequeña del Echo con altavoces estéreo duales Básicamente, todos funcionan igual.

La evolución de Echo se ha visto limitada y lentamente se agregan nuevas características. Hoy (4 de febrero de 2016, actualización del software de la versión 3077) Echo puede:

Ordene artículos de Amazon tanto de pedidos anteriores como de la creación de nuevos pedidos.
Cree listas de compras para usar en otras tiendas, no solo en Amazon.
Lea libros de su biblioteca Kindle usando Text To Speech.
Reproduce audiolibros de tu biblioteca Audible.
Actualización deportiva con detalles como puntajes y próximos horarios para la NFL, NBA, MLS, MLB, NHL, WNBA, NCAA y otros deportes estadounidenses.
Presente el clima y las noticias de una variedad de fuentes, incluidas las estaciones de radio locales, NPR, ESPN, TuneIn.
Reproduzca música de las cuentas de Amazon Music del propietario y soporte integrado para Pandora, y el servicio de transmisión de música Spotify y servicios de transmisión como Apple Music y Google Play Music desde un teléfono o tableta.
Soporte para IFTTT (If This, Then That) alarmas controladas por voz, temporizadores, compras y listas de tareas.
Entrenador personal de entrenamiento usando la configuración de habilidades.
Acceda a los artículos de Wikipedia.
Responda a sus preguntas sobre los elementos en su calendario de Google.
Se integra con Philips Hue, Belkin Wemo, SmartThings, Insteon y Wink con el apoyo anticipado de Countertop de Orange Chef, Scout Alarm, Garageio, Toymail, MARA y Mojio.
Dar informes de tráfico.
Llama a un auto de Uber.
Afina una guitarra.
Un conjunto creciente de desarrolladores de ASK (Alexia Speech Kit) “Skills” qusi-API.

Para muchos, esto es más que suficiente para justificar una compra de ~ $ 150 del Echo original. Estas características fueron suficientes para tener un Echo en la cocina, el baño principal (no en el área del baño) y en un automóvil. Tuve la suerte de tener uno a principios de diciembre de 2014 y lo encontré útil de formas que no podría haber predicho. En cada configuración hay casos de uso únicos y, en ocasiones, inesperados.

Eco en la cocina

En la cocina, Echo se ha vuelto indescriptible para crear listas de compras familiares. No hay forma de que regrese a la manera casual que fue reemplazada. Todos simplemente llamamos a Alexa para agregar X a la lista de compras durante la semana con una especie de frenesí de fregar el refrigerador, el congelador y los gabinetes en un esfuerzo grupal justo antes de ir de compras. Echo forma una conexión inesperada con las tiendas físicas que no son de Amazon. Es uno de los mayores descuidos de Amazon el no tener una manera fácil de convertir todo o parte de una lista de compras en un pedido de Amazon. Estoy seguro de que este déficit se abordará pronto.

Echo también es muy útil en situaciones de cocina. Temporizadores, temporizadores y temporizadores, nunca usé tantos temporizadores y francamente debería haberlo hecho. Las conversiones de medición y los ajustes y recomendaciones de recetas también han sido muy útiles.

Echo en la cocina también es una pieza central para la familia con mis dos hijos haciéndole tantas preguntas a Alexa como a mí: “Alexa, ¿por qué el cielo es azul?”. Tenemos una especie de juego en el que vemos quién puede responder una pregunta más rápido que Alexa, gano bastante pero mis hijos se han puesto al día. Veo a Echo tan importante como cualquier enciclopedia o libro de texto escolar para la educación. Esto se extiende a los libros que he narrado durante el desayuno y algunas otras comidas que parecen cautivarnos a todos y promover preguntas e ideas de las mentes de los niños curiosos.

Eco en el baño

Seamos sinceros, incluso la persona más despreocupada pasa bastante tiempo en el baño preparándose para el día. La mayoría de nosotros (56%) tardamos entre 11 y 30 minutos en prepararse [3]. Eso significa que el 30% de los estadounidenses pasan más de una semana preparándose en el baño cada año. Mi esposa y yo usamos este tiempo para establecer listas de tareas pendientes, listas de compras, escuchar libros y música, y lo más indispensable para mí, tomar notas para ideas y enviar un Tweet ocasional. Desde diciembre de 2014, Alexa y Audible me han leído ~ 45 libros mientras me preparaba. Es una poderosa herramienta de aprendizaje, estos son 45 libros que probablemente habría tenido que leer en otros momentos y tal vez en conflicto con otras cosas que quería hacer.

He podido hackear una forma no elegante de usar Echo para leer las publicaciones de Quora y puedo decir que esto realmente ha extendido mi consumo del trabajo de las mentes más increíbles del mundo en Quora. Mi método es un truco feo que espero se haga bonito en el futuro.

También configuré el termostato Nest a través de la aplicación IF (ifttt) a una temperatura agradable por la mañana. Así como establecer la temperatura final durante la noche. Aunque todavía no tengo un eco en el dormitorio principal, por la noche pongo música ligera que llena la habitación con un sonido más que adecuado.

Eco en el coche

Soy investigador y esto me obliga a probar lo inesperado y extremo. Por lo tanto, quería probar cuán efectivo y útil sería Echo en el automóvil. Esto fue en enero de 2015 y Echo todavía no estaba en una amplia distribución y estoy bastante seguro de que fui uno de los pioneros aquí.

El eco en el automóvil se volvió absolutamente indispensable, tal vez incluso más que en la cocina. Por razones obvias, conducir requiere una cantidad mínima de distracciones. Uso Echo para las mismas cosas que hago en casa, pero en muchos sentidos es más efectivo. Uso Echo para leer mucho Quora, noticias y libros mientras estoy de viaje. El truco que utilizo para publicar en Twitter es útil cuando una secuencia de ideas me solicita.

Las pocas horas a la semana que paso en el camino me han permitido acceder a miles de publicaciones de Quora, titulares diarios, algunos cientos de Tweets y alrededor de 31 libros desde diciembre de 2014.

El experimento se hizo permanente en el momento en que pude instalar otra unidad en el automóvil. El automóvil tiene un punto de acceso de AT&T incorporado y en realidad solo agregó alrededor de $ 15 por mes con todo mi uso. También tengo un enchufe de 120 VCA incorporado y encontré una especie de ubicación correcta para Echo en el automóvil.

Alexa, Google o Siri? Yo digo sí a todos

Viviendo y trabajando con Echo en tres ubicaciones principales durante más de un año, estoy completamente convencido de que Echo y los muchos productos que veo que vendrán en el futuro dominarán nuestros hogares y vehículos. Creo que es importante agregar que también soy un gran usuario de Siri de Apple y escribí bastante sobre esto aquí en Quora [4]. Veo a Echo y Siri como similares pero bastante diferentes en algunos niveles fundamentales. Siri para mí es muy útil y bastante indispensable para contestar mensajes de texto y componer pequeñas o medianas cantidades de texto dictado. De hecho, alrededor del 40% de esta publicación se compone con Siri. Para mí, nunca será una situación de uno u otro, sino una rica mezcla de usos que cada sistema hace mejor. También uso Google Voice hasta cierto punto principalmente para búsquedas, de hecho, todas las búsquedas que utilicé para esta publicación se realizaron con Google Voice.

Como mencioné anteriormente, incluso Amazon está en los primeros días con Echo con la incapacidad de convertir una lista de compras en un pedido de Amazon en vivo. Cuando se lanzó Siri, escribí bastante sobre el aspecto comercial de Siri y el discurso en general [5]. Escribí sobre la posibilidad de que Siri (o cualquier sistema basado en voz) se convierta en un sistema de finalización de transacciones. Escribí sobre un futuro en 2011 que estaba seguro de que Apple adoptaría mucho más rápido de lo que lo han hecho. Estaba escribiendo acerca de que Apple también entró en pagos en ese momento y sabía que el producto que se convirtió en Apple Pay tuvo que ser lanzado primero. Esto finalmente tuvo lugar en octubre de 2014. Apple ha realizado muchas mejoras y actualizaciones a Siri, pero hasta ahora se ha sentido de alguna manera detrás de Amazon Echo. Estoy bastante seguro de que con Apple Pay 4.0 y los cambios realmente grandes en Siri que estoy prediciendo, Apple quizás superará a Amazon. Ya vemos una pista de esto con la última versión de Apple TV.

Las API son el futuro de las interfaces de voz

La tecnología del habla en marzo de 2016 es bastante rica y útil y si la evolución se detuviera hoy, ya habría tenido un lugar permanente en mi vida y en la vida de mi familia. Pero, por supuesto, la innovación no se detendrá aquí. Hay un gran futuro por delante con la posibilidad de abrir API de Amazon, Apple y Google que ampliarán la usabilidad de Speech para extender mucho más los casos de uso. Escribí sobre las perspectivas de cómo las API pueden ser el elemento más definitorio de una interfaz de voz en 2011 con el lanzamiento de Siri [6]. La ontología de la información a la que accede una interfaz de voz continuará expandiéndose con un mayor impulso en 2016. Además, el acceso a controlar todo, desde luces hasta cafeteras a través de una interfaz de voz, también ganará un mayor impulso en 2016. Hasta ahora, ninguna de las tres interfaces de voz grandes tener API abiertas y útiles, pero esto cambiará. Aunque Amazon está en camino con Alexa Skill Kit [7].

Muestra del patrón de flujo de Alexa Skills.

Educación, comercio y publicidad son las “aplicaciones asesinas” para Amazon Echo

Educación : para mí es muy claro después de un año con Echo que la educación es un aspecto fundamental de esta tecnología pero aún no se ha descubierto. Tanto es así que creo que en los próximos cinco años muchos estudiantes encontrarán que este tipo de interfaz de voz como guía de estudio es casi común. Amazon y Google se encuentran en una posición única para aprovechar su enorme inventario de información indexada en un sistema experto basado en voz con tecnología avanzada de aprendizaje automático.

Comercio : El comercio parece lógico al inicio de Echo, pero como mencioné, esta no fue la fuerza impulsora fundamental durante el desarrollo del “Proyecto Doppler”. Era una extensión de Kindle llevada al extremo. Por lo tanto, no es sorprendente que Amazon se esté poniendo al día con el elemento comercial de Echo. Puede ordenar artículos, por supuesto, hoy, pero el gasto debe evolucionar. La conexión externa a Domino’s Pizza presenta cuán profundamente pueden llegar las API.

Publicidad : La relación de Domino’s Pizza presenta un nuevo modelo de publicidad que bien podría cambiar toda la industria. Al igual que el modelo de pago por clic que Google refinó en la década de 1990, el modelo de pedido de pago por voz puede convertirse en una plataforma dominante. Amazon, Google y Apple pueden controlar este futuro donde las API y los sistemas de pago integrados de estas compañías completan las transacciones con casi cualquier comerciante por casi cualquier producto. Más del 75% de las ventas en Amazon.com son de vendedores del mercado y no de Amazon. Amazon tiene una gran experiencia como plataforma de publicidad y pagos y estoy seguro de que Echo definirá este nuevo modelo de publicidad.

“Alexa pide una pizza de queso grande”

Estos son los fundamentos básicos de por qué las interfaces de voz prosperarán en el futuro. Si incluso uno domina a corto plazo, será una revolución. Claramente, el aspecto de comercio y pagos es quizás el elemento más importante a corto plazo. Hoy puedes sentarte en tu cocina y decir “Alexa, pide una pizza grande de Domino’s”. Se entregará en unos 30 minutos y ya habrá sido pagado. Imagine cuántos pasos mecánicos y cognitivos reemplaza este comando de seis palabras. Lo he estudiado, hay más de 200 pasos de “demolición”.

Puede parecer que Amazon dominará este espacio. Afirmo firmemente (y durante los últimos 3 años a los clientes) que después de Apple Pay, el comercio de voz es la mayor oportunidad de pago en esta época. En pocas palabras, es muy probable que alguien en un garaje esté construyendo las bases para esta nueva solución de pagos y comercio. Los “ganadores” de hoy no tienen garantía de ser “ganadores” en este nuevo mundo de comercio de voz. No se trata de pagos minoristas ni de pagos basados en la aplicación o en la web por muchas razones fundamentales.

El comercio de voz, como lo mostrará la historia, es un paradigma completamente nuevo y único. He estudiado todos los aspectos de las interfaces de voz con atención al comercio y los pagos durante más de 20 años y estamos a la expectativa de algo revolucionario. He identificado una hoja de ruta de más de 200 puntos sobre cómo se desarrollarán nuevos paradigmas de pago, nuevo hardware que no sea de Amazon y nuevos negocios en este ecosistema. Hasta el momento, ni una sola empresa de pagos o una empresa heredada está posicionada para comprender no solo esta oportunidad, sino que puede estar alejándose de ella.

Echo, una novedad?

Estoy seguro de que en la era de las tarjetas perforadas como la interfaz de usuario principal para una computadora, un teclado parecía una novedad. Puedo dar fe de que en la era en que un teclado como interfaz de usuario principal, el mouse se consideraba una novedad. Finalmente, la pantalla táctil fue vista como una novedad en la era del micro teclado Blackberry.

Demostración de la interfaz de IBM’Punch Card en un momento en que el teclado y la pantalla se consideraban una novedad.

El teclado golpeó la tarjeta perforada. El mouse coexistió con el teclado. La pantalla táctil hizo redundante el teclado mecánico. En el futuro, solo las interfaces de voz harán redundante la necesidad de todas estas cosas para un número creciente de tareas. Nos extraeremos de los procesos mecánicos y cognitivos de las tareas que realizamos hoy y usaremos nuestras voces para controlar estos sistemas tan poderosos en la nube. Estos sistemas harán todo el trabajo completando las tareas y nos informarán cuando hayan terminado.

Los autos sin conductor requerirán una interfaz de voz para el control y la interacción. Hay pocas dudas de que esta tecnología será de importancia crítica. Muy parecido a cómo uso Echo en el automóvil hoy, estoy seguro de que esto también se convertirá en una forma popular de consumir información en esta configuración.

Las interfaces basadas en voz le permiten realizar múltiples tareas y hacer otras cosas. A diferencia del paradigma de usar un dispositivo y leer una pantalla, usar su voz es liberador y aumenta la productividad hasta un punto que simplemente no es posible solo con interfaces mecánicas.

La computadora tal como la conocemos se ha reducido y, en muchos sentidos, desaparecerá y se convertirá en un nexo que nos conectará a través del habla. Todavía habrá pantallas táctiles y quizás auriculares VR, incluso quizás pantallas efímeras holográficas en los próximos 10 años. Sin embargo, las interfaces de voz continuarán creciendo y complementarán estas experiencias.

Un año de uso de Echo me ha informado que la confianza descarada de ser una interfaz de voz independiente siempre es su mayor fortaleza. A diferencia de un apéndice de un televisor, teléfono inteligente o navegador web, Echo realmente define el espacio físico donde vive. Es notable lo rápido que me he acostumbrado a entrar en una habitación y a dirigirme a Echo instantáneamente con una solicitud. Puedo ver claramente a dónde nos llevará esto a todos.

El destino final de la interfaz de voz será un sistema robótico humanoide anotómico que, al igual que una película de ciencia ficción, interactuará fundamentalmente con nosotros a través de la voz. Esta característica no es una idea de último momento, sino la pieza central de los robots humanoides que sin duda tendremos en el futuro.

Lo que llamamos una computadora cambiará fundamental y profundamente, nuestro bisnieto se maravillará con el teclado y el mouse y tal vez incluso con una pantalla táctil. Verán estas interfaces de usuario como una novedad histórica.

Hemos viajado muy lejos desde Audrey en 1952. Echo, ¿una novedad? No, Alexa somos nosotros recién comenzando.

_____

[1] Mecánica popular

[2] http://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html

[3] La rutina de la mañana: el 30% dedica más de una semana a prepararse cada año

[4] La respuesta de Brian Roemmele a ¿Por qué es importante Siri?

[5] La respuesta de Brian Roemmele a ¿Siri se convertirá en un sistema de finalización de transacciones?

[6] La respuesta de Brian Roemmele a ¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con ella?

[7] Kit de habilidades de Alexa (PREGUNTAR)

Amazon EchoCortanaReconocimiento de vozSiriTecnología

Related Content

¿Por qué se detiene jiofi 3?

¿Por qué no vemos computadoras como la pantalla de inicio en Windows Mobile?

¿La nanotecnología hará obsoleto el uso de bacterias como 'biofábricas' algún día? ¿Podría privar a los biólogos sintéticos de sus trabajos?

¿Cuáles son los accesorios básicos necesarios para que Raspberry Pi 3 funcione?

¿Es Xiaomi una marca en la que confiar (comparándola con marcas como Samsung y HTC)? ¿Qué es mejor: Xiaomi MI3 o HTC Desire 816?

¿Cuáles son algunos de los dispositivos geniales disponibles en la India que la mayoría de las personas desconocen?

¿Qué cosas puedo hacer, por ejemplo, reemplazar ciertas partes, limpieza regular, para hacer que una videograbadora dure más?

Es útil.

Ayuda a reducir el tiempo de finalización de la tarea y las personas ven el valor.

Para la primera parte, echemos un vistazo a cómo evolucionó la aplicación de reconocimiento de voz / voz.

IVR ( respuesta de voz interactiva )
El reconocimiento de voz y su utilidad en realidad no son nuevos. IVR por teléfono se hizo popular entre los centros de llamadas en la década de 2000.
Funciona perfectamente para marcación por voz, enrutamiento de llamadas y entrada de datos simple. Ayuda a reducir drásticamente el costo de los centros de llamadas. Para los usuarios expertos que están familiarizados con el flujo de trabajo, también ayuda a los usuarios a realizar su tarea más rápido.
Reconocimiento de voz de Windows
Microsoft introdujo por primera vez el reconocimiento de voz en 2002. No se trata como un producto separado sino como una nueva interfaz de usuario dentro de Windows.
Se volvió muy útil para las personas con discapacidad para interactuar con su computadora por primera vez en ese momento. Leí muchas historias que la gente aprecia cómo ayudó a cambiar sus vidas.

Para usar el reconocimiento de voz de Windows, se requería un micrófono, y dado que las personas estaban cerca de su teclado de todos modos, para las personas que no lo necesitaban como una función de accesibilidad, no ayudó a reducir el tiempo de finalización de la tarea.

Era más como una característica novedosa para la mayoría de las personas en ese momento.
Siri, Google Now y Cortana
La próxima ola llegó con internet móvil. A principios de la década de 2010, de repente todos llevaban un micrófono y casi todo el reconocimiento de voz comenzó a suceder en la nube.
La computación en la nube permitió recopilar muchos más datos de voz sin procesar y una iteración de capacitación de modelos más rápida. Ahora, casi todos los jugadores principales Cortana, Siri (software), Google Now y Nuance Communications (compañía) construyen su motor de reconocimiento de voz basado en métodos de aprendizaje profundo, esto no es imaginable antes de la era de la computación en la nube.
Amazon Echo y Kinect
Amazon Echo adopta el reconocimiento de voz de campo lejano. En lugar de presionar un botón en su teléfono inteligente, dice una palabra de activación y comienza la conversación con su asistente de voz, incluso si está a varios metros de distancia de Amazon Echo.
Este es un gran cambio.

Ya no necesita llevar su teléfono inteligente para entablar una conversación con su asistente de voz. Ya no tienes una dependencia. El tiempo general de “arranque” también se redujo al sacar su teléfono de su bolsillo y presionar un botón para simplemente decir una palabra de activación. (Por cierto, el enfoque de la palabra de activación también es demasiado costoso para el teléfono inteligente porque incluso el modo de espera consume batería rápidamente. Por lo tanto, incluso Siri admite “Hola señor”, requiere que el teléfono esté en modo de carga).

En realidad, Kinect fue el primer producto comercial ampliamente reconocido que utilizó el reconocimiento de voz de campo lejano para otorgar crédito a Microsoft (pero nuevamente, como se esperaba, perdió la oportunidad de aplicarlo en el mercado doméstico inteligente).

Desde IVR por teléfono hasta Amazon Echo de hoy, que no requiere cerca del micrófono, la interacción de voz se vuelve cada vez más accesible para nosotros.

Para la segunda parte, veamos varios casos de uso y juzgémoslos por el tiempo de finalización de la tarea.

Control por voz de otros dispositivos
Ahora todos tienen el problema de ” una canasta llena de control remoto” .
La aplicación de teléfono inteligente es una opción, pero la forma de construir una interfaz de usuario genérica y fácil de usar es un gran desafío.
El control por voz, por otro lado, podría ser una forma de resolver ese problema. “Apagar la luz de la sala de estar”, “configurar la alarma a las 8 a. M.”, “Ver a la familia moderna” son formas naturales de cómo las personas piensan en estos problemas, y probablemente sea más rápido que manipular diferentes aplicaciones en su teléfono inteligente para estas tareas.
Con protocolos como IFTTT, cada vez más dispositivos se conectan a Internet. Esto presenta una gran oportunidad para que dispositivos como Amazon Echo los conecten todos juntos. De hecho, Amazon Echo se integra con todos los dispositivos inteligentes a través de Amazon Alexa Channel.
Un protocolo como IFTTT permite a los futuros jugadores (puedo apostar que mi dinero Google estará allí) conectarse a todos los dispositivos que Amazon Echo también puede.

El control por voz en estos escenarios obviamente ahorra tiempo.
Consultas de rutina
“¿Qué tiempo hace hoy?”, “¿Cuál es la mejor ruta para mi trabajo?”, “¿Cuál es la lista de compras del glosario para hoy?”
Estas son preguntas comunes / rutinarias que le hacemos a nuestros asistentes de voz. Es factible y fácil capacitar a los asistentes de voz para que comprendan bien estas consultas y todas sus variantes.
Muchas de estas tareas se pueden realizar en paralelo a través de la voz con otras cosas, si no nos ahorra tiempo, se compara con hacerlo en el teléfono inteligente.
Búsqueda de voz general
En realidad, no creo que la búsqueda por voz en general sea un buen caso de uso. Claro, ves muchas demostraciones geniales de Siri a Amazon Echo. Pero si lo ha intentado usted mismo, encontrará más frustración que satisfacción.
Ponga el lado de precisión de reconocimiento de voz, para obtener el momento aha, el resultado de la búsqueda debe ser breve . Texto a voz es una interfaz de bajo rendimiento por razones obvias.
Escuchar más de un minuto de texto a voz es realmente un desastre para la experiencia del usuario.

El resultado también debe ser determinista . A diferencia de la búsqueda de texto, las personas se sienten cómodas con múltiples opciones de resultados, es un desastre obtener múltiples resultados de una interfaz de voz.

Es bastante obvio que no ahorramos tiempo al hacer preguntas generales a través de la interfaz de voz, por lo que no espero que las personas cambien sus actividades de búsqueda mayoritarias a la interfaz de voz en el futuro previsible.

Hay dos grandes áreas que deberíamos esperar que la industria mejore en los próximos años.

Exactitud de reconocimiento de voz
Con cada vez más datos de usuario recopilados y tecnologías de aprendizaje automático cada vez más avanzadas, debemos esperar que el motor de reconocimiento de voz pueda entendernos mejor y mejor.
También debemos esperar que el motor interprete nuestra voz de una manera más personalizada y contextual. Esto también es esencialmente lo que hacen los humanos para entender a los demás.
Reconocimiento de voz de campo lejano
Cuanto más lejos de la fuente de voz, menor será la relación señal ruido. Cómo mejorar el hardware para recoger mejor la voz a una distancia mayor, a veces con ruido de fondo, es un gran desafío para el hardware y el procesamiento de la señal.
Idealmente, deberíamos ser entendidos en cualquier parte de la casa, no solo en la sala de estar, para que podamos “apagar las luces de la sala” en nuestra habitación, “tocar el nuevo álbum de Lady Gaga” mientras nos duchamos.

Intencionalmente no quiero citar ninguna estadística de internet para “son el uso y las retenciones de Amazon Echo o Siri creciendo”. Porque creo en el futuro de los asistentes de voz en el escenario que describí anteriormente, y puedo ver que ayuda a reducir el tiempo de finalización de la tarea. Los asistentes de voz también se convierten en la característica estándar para teléfonos inteligentes, automóviles y futuros dispositivos inteligentes.

Lo mejor está por venir.

Daniel Tunkelang

Los asistentes de voz son cambiadores de juego .

Los datos públicos de Google muestran que el acceso móvil se apoderó de las computadoras de escritorio y portátiles en los últimos dos años. Sin embargo, cuando lleva un teléfono en una mano, escribir con las dos manos puede ser un desafío. Incluso cuando escribir es una opción, muchas personas encuentran las interfaces de voz más rápidas y convenientes. Estamos bastante acostumbrados a que las personas hablen por teléfono en lugares públicos, pero esto puede ser molesto. Las IU de voz probablemente requerirán sesiones más cortas y menos cargadas de emoción. Además, las personas pasan tanto tiempo solas hoy que hay más que suficientes oportunidades para pasar tiempo de calidad con una interfaz de usuario de voz. Solo mire esos carriles de viaje compartido medio vacíos durante las horas pico: ¡todos los demás están solos en su automóvil!

La dependencia de las interfaces de voz aumentará con los años a medida que las nuevas generaciones (de personas) comiencen a interactuar con los asistentes de voz mucho antes de que aprendan a usar un teclado. Es concebible que algunos nunca aprendan a usar bien un teclado completo, y las ventajas obvias del texto inpit pueden ser desagradables para ellos. Las interfaces de voz no “se harán cargo” de ninguna manera, pero ayudarán a hacer crecer el mercado hasta el punto de convertirse en una gran parte de él.

Con la interfaz de texto libre, las personas pueden concentrarse en lo que necesitan, en lugar de cómo expresarlo. Las interfaces estructuradas, como la búsqueda de productos de Amazon con filtros, son muy engorrosas en los dispositivos móviles. Tratar estas búsquedas a través de la interfaz móvil sería muy favorable desde la perspectiva de la interfaz de usuario. Amazon Echo está bien posicionado para abordar el nicho de reordenamiento, donde el cliente necesita repetir lo que se ordenó anteriormente. Tal aparato puede desempeñar el papel de un sirviente doméstico.

El diálogo hablado simplifica el modelo mental de interacción. La capacidad de Siri para mantener una conversación, de una manera que la mayoría de las personas encuentra convincente, elimina esencialmente el dispositivo físico de la interacción. Anteriormente, las personas interactuaban con su computadora portátil, pero ahora (en su mente) esa entidad es Siri. El teléfono físico puede ser actualizado o robado, pero Siri aún podrá responder preguntas y acceder a archivos en la nube. Mientras el teléfono sigue siendo el mismo, Siri se está volviendo más inteligente.

Si bien es obvio en retrospectiva, gran parte de este potencial aún no se realiza en la práctica. Hace solo unos años, esto podría haber parecido ciencia ficción (StarTrek, en realidad) dado que muchos intentos comerciales de procesamiento del habla (desde la década de 1980) no cumplieron con las expectativas iniciales. Sin embargo, el rápido progreso en el hardware de computación móvil, la transferencia de datos a través de redes celulares, la computación en la nube y el procesamiento adaptativo del habla (para capturar acentos y otras idiosincrasias de hablantes individuales) marcaron una gran diferencia.
Otro tema importante es la construcción de bases de datos de patrones masivos en el lado de la nube que desambiguen los resultados de los algoritmos de procesamiento de voz. Esto facilita la corrección de “Auckland California” a “Oakland, California” y “Oakland Nueva Zelanda” a “Auckland, Nueva Zelanda”. Tal vez, sería más apropiado agradecer la convergencia de todos los avances anteriores, junto con el pequeño factor de forma de las plataformas móviles y el enorme mercado mundial de teléfonos inteligentes.

¿Qué deberíamos esperar en los próximos cinco años?

A medida que el hardware móvil se vuelve más potente (y hay mucho margen de mejora), espere que los asistentes de voz se vuelvan más autónomos y funcionen razonablemente bien sin una conexión de red. Esto mejorará su tiempo de respuesta (ahora reenvían su voz a la nube para su procesamiento y esperan resultados) y los hacen más confiables. Podrás tener una conversación más significativa con Siri en un avión.

Jeremy Arnold

El futuro de estos nuevos asistentes personales, incluidos Amazon Echo, Apple Siri, Microsoft Cortana y Google Now, es brillante. Como si el concepto fuera una tela infinitamente absorbente que solo se haya humedecido nominalmente, con el mundo tratando de exprimir las escasas gotas de valor que se han empapado, todavía no hemos visto esta tela empapada generosamente debajo de un grifo abierto.

Pregúntele a Amazon Echo “qué quiere ser cuando sea grande”, y abre una ventana a las ambiciones de los jugadores dentro de este mercado: “Quiero ser la computadora de Star Trek”. La ciencia ficción es la materia de nuestros sueños. Cuando se convierte en realidad, es un signo de la ascensión misma de nuestra raza. Al igual que el día en que Tony Hawk montó un hoverboard, tal será el caso cuando nuestras máquinas realmente se conviertan en nuestros compañeros.

Internet de las cosas se ha ido ramificando desde el ámbito del propietario de la casa. Mientras que un asistente personal es un ajuste natural para controlar cosas como:

termostatos
sistemas de seguridad
puertas de garaje
rociadores
cafeteras

Las tecnologías como las bombillas inalámbricas controladas por Amazon Echo (Philips Hue, Belkin Wemo) son extremadamente simples de comprar y usar con una propuesta de valor inmediata, incluso para un arrendatario, así como cajas de controlador de TV amigables con la tecnología de asistente personal como Amazon Fire TV y Apple TV. Simplemente compre los componentes, que son cada vez más asequibles, y el asistente personal lo ayudará a operarlos. Cada vez más dispositivos aprovecharán las API de dichas tecnologías y serán operables de inmediato por al menos uno.

Las tecnologías basadas en la nube también son una opción natural para las tecnologías de asistencia personal. La computación masiva realizada en las granjas de servidores de las corporaciones es un arma de doble filo que los consumidores están dispuestos a aceptar. Me haces la vida más fácil y, a cambio, puedes aprender lo que realmente quiero comprarte para llenar los vacíos. Apple, Microsoft y Google aprovecharon las plataformas de hardware existentes para ofrecer tecnologías de asistente personal con accesibilidad razonable. Sin embargo, Amazon, con la falla de su teléfono Fire, eligió debutar con un dispositivo insignia impulsivo para la compra destacado en su poderosa plataforma de compras en línea. Sin embargo, incluso Amazon aprendió rápidamente el beneficio de aprovechar la movilidad de la nube, y recientemente presentó el dispositivo móvil Amazon Tap.

Al aprovechar la nube, los asistentes personales podrán acceder a nuevas capacidades, como el conjunto de conjuntos de servicios de Apple: Carplay, HomeKit y HealthKit.

Cada vez más y necesariamente, los automóviles aprovecharán la tecnología similar a Carplay no solo por conveniencia, sino también por seguridad, como el beneficio obvio de mantener los ojos en la carretera. Los asistentes personales son una extensión natural que permite un control e interacción personalizados.

Sin embargo, HealthKit probablemente será más generalizado, ya que es mucho más un beneficio financiero para las poderosas compañías de seguros de salud que un simple artículo de lujo. Actualmente, uso un podómetro que sincronizo diariamente con mi teléfono inteligente y la cantidad de pasos que he tomado se cargan en Aetna, lo que me permite aumentar los descuentos en el seguro. Tanto como $ 600 en un año. Será mejor que creas que es suficiente para llamar la atención de un cineasta independiente como yo. Las tecnologías como HealthKit pueden llevar eso al siguiente nivel, monitoreando mis signos vitales, asegurándome de tomar las recetas según lo prescrito, recordándome que duerma lo suficiente y estoy seguro de que tal vez algún día todos obtengamos descuentos en nuestro seguro dental cepillando y usando hilo dental lo suficiente. Tu asistente personal estará allí contigo, recordándote atentamente y animándote, por supuesto dentro de los límites de tu agradecimiento.

La mejor señal para el mercado es la cantidad de grandes corporaciones tecnológicas que compiten individualmente. Sin duda, Siri fue primero a las carreras, pero su ecosistema limitado está dando alternativas de compra sólidas.

(Tendencia de búsqueda de Google a lo largo del tiempo, Siri = azul, Eco = rojo)

Puedes apostar a que el “Ahora” de Google también se está usando bastante.

La competencia inspira innovación. Aunque a menudo no es una innovación directa, sin duda, la posibilidad de una adquisición increíblemente lucrativa ha sido una bendición para la investigación académica y empresarial. Apple embolsó a Siri a través de la adquisición de Siri Inc, un spin-off de SRI International, mientras que Amazon compró silenciosamente compañías como Evi, Yap e Ivona para agregar a su propia cartera de tecnología. El código abierto avanzará de manera simultánea y colectiva gracias a esfuerzos como el proyecto Mycroft, nacido en Kickstarter.

Mi toma personal:

Soy dueño de Amazon Echo y he usado Apple Siri bastante. Amazon ha puesto su máquina de marketing a trabajar para el Echo, y ciertamente, cada vez se venden más unidades. Salvo casos frecuentes de la teoría de la disonancia cognitiva en acción, la mayoría finalmente se desilusiona con las verdaderas limitaciones de Echo, incluso sin incluir que se conspicuamente restringido a una habitación. Los asistentes personales conectados a los teléfonos inteligentes crecen cada vez más en uso en lugar de los números a medida que las personas exploran las características de las capacidades que su teléfono ya tiene. Actualmente, estos productos son ocasionalmente útiles si aprende lo que manejan de manera confiable y trabaja para maximizar su potencial.

Sin embargo, eso no es lo que se factura a estos asistentes. Quedan serios impedimentos, el mayor de los cuales es la falta de comprensión basada en el contexto. No tiene la libertad de desviarse de las tareas que los fabricantes se han esforzado por apoyar. Todos te dirán el clima local. Pueden ayudar con los puntajes de los principales deportes. Lo más útil que personalmente he encontrado para Siri es como un dispositivo manos libres, enviando pequeños mensajes de texto mientras conduzco.

Sin embargo, si le preguntas a Amazon Echo “¿Qué sonido hace un gato?”, No puede responder con un simple maullido, mientras que “¿Qué sonido hace un zorro?” obtiene una respuesta enlatada cómica por galimatías basada en la canción pop. En ocasiones, pruebo el estado actual de Siri mientras estoy con amigos, y surge una pregunta que creo que Siri debería poder manejar razonablemente. La sala queda en silencio y hago la pregunta, pero estamos en un automóvil o la pregunta usa una palabra a la que Siri no está acostumbrada. Ya es bastante difícil hacer la pregunta correcta. Lo mejor que puedo esperar en el 98% de esos casos es una búsqueda web relevante. Si bien la búsqueda se realizó con manos libres, sin duda debe redirigir su atención a la pantalla para analizar los resultados de la búsqueda web.

Tiene que haber una comprensión semántica de estos productos para revertir la traducción de la intención. En este momento, tengo que descubrir cómo decir las cosas en lugar de que la máquina descubra lo que estoy tratando de decir.

Hablemos de cómo descubres qué pueden manejar Echo y Siri. En general, puede usar el sentido común, basado en lo que serían las solicitudes más comunes obvias que son lo suficientemente simples como para que puedan ser manejadas razonablemente. ¿Qué tiempo hace? ¿Qué hay en mi calendario hoy? Pero por lo demás, me encuentro teniendo que buscar “listas de ejemplos”.

Sin embargo, aunque no espero una “singularidad tecnológica”, donde nazca la inteligencia artificial y estos asistentes personales se actualicen espontáneamente con sensibilidad, sí espero que se produzcan grandes avances en ingeniería del conocimiento / conciencia semántica en la próxima década, no en compañía. laboratorios de investigación, sino más bien en universidades. Una disertación de doctorado, probablemente en MIT o Carnegie Mellon, presentará un trabajo que demuestre un avance significativo en el campo, y este doctorado se combinará con una startup basada en patentes y una adquisición posterior. Pronto notaremos que una de las falanges de asistentes personales que podemos o no haber adquirido a propósito está creciendo en capacidad, con otros para seguir a medida que se renueve el interés en el campo y las patentes expiren. Los asistentes personales trascenderán de ser dispositivos de entrada alternativos glorificados a ser compañeros que pueden ofrecer una comprensión significativa de sus verdaderas necesidades.

Una nota sobre el futuro:

Si bien la computadora de Star Trek puede representar muy bien la ascensión de nuestra raza, el verdadero logro no es la instrucción basada en el reconocimiento de voz. Me quedó claro cuando agarré una botella de enjuague bucal colocada cerca de un Amazon Echo, y tomé un trago, con la intención de enjuagarme por un minuto antes de escupir.

Echo parecía el asistente ideal para decirme cuándo había pasado un minuto, pero había un problema obvio. Me encogí de hombros, obligado a animar. Esto también es una limitación obvia para las personas sordas y con problemas de audición, junto con cualquier persona en un entorno ruidoso inadecuado.

Con el tiempo, ¿podrán los dispositivos leer nuestras mentes? No creo que esa pregunta sea particularmente relevante para nuestra ascensión, ya que se pueden proporcionar medios de comunicación razonables, aunque limitados, para la mayoría de las situaciones antes de lo que es posible. La verdadera ascensión será a través de la comprensión de la intención de un “asistente”. El contexto y la semántica son lo importante, y ahí es donde este campo inevitablemente nos llevará, tal vez en poco tiempo, si el mercado para tal se aprovecha realmente su potencial.

John L. Miller

Los asistentes de voz son útiles para lo que actualmente pueden hacer, pero están limitados por su alcance de diseño. Siri no puede abrir la puerta de su garaje (todavía, espere Apple HomeKit). Cortana no puede hacer nada en su teléfono o computadora que sus dedos (o mouse) pueden hacer. Google Now es más o menos lo mismo.

Apple, Microsoft y Google quieren encerrarte en su plataforma para mantenerte como una fuente de ingresos … para ellos. No es útil para mí, útil para ellos.

Lo que es realmente útil con Amazon Echo es que Amazon ha incorporado compatibilidad con los productos de varios fabricantes, es un altavoz Bluetooth totalmente operativo, pero lo principal que hará que el Echo no sea solo un dispositivo útil, sino una necesidad doméstica, es que Amazon ha abierto su código de programa hasta proveedores de hardware y desarrolladores de software de terceros. Aquí es donde un dispositivo limitado extiende sus alas y toma vuelo, por así decirlo.

Hoy puede decirle al Echo que encienda las luces o atenúe las luces en una habitación o en un grupo de habitaciones al nivel que desee. Puede controlar enchufes eléctricos. Puede abrir la puerta de su garaje, escuchar música en Pandora o Spotify, así como Amazon, por supuesto. Echo reproducirá sus estaciones de radio TuneIn o accederá a libros audibles para su placer auditivo. Como centro de entretenimiento, Echo alberga su propio juego de “Jeopardy”, que podría ser una noche divertida, solo recuerde responder en forma de pregunta.

Pida pizza de Domino’s, llame a un Uber, controle su automóvil con Automático, un dispositivo que se conecta al puerto de diagnóstico de su automóvil y convierte a un automóvil tonto en un automóvil inteligente, consulte las reseñas en Yelp. Todo esto es lo que Amazon llama “habilidades” para el Echo, lo que significa que son habilidades escritas por compañías de terceros.

Las luces conectadas Lifx y Philips Hue, la línea de interruptores inteligentes WeMo de Belkin, los termostatos conectados de Ecobee y las plataformas domésticas inteligentes como Wink, SmartThings e Insteon ofrecen soporte nativo para el Echo.

Todas estas cosas han hecho que Echo sea realmente útil, especialmente para las personas mayores o discapacitadas.

Y, más allá de HOY, el reconocimiento de voz Echo permitirá que los dispositivos fabricados por otras compañías sean tan inteligentes porque Amazon está ofreciendo su servicio de voz Alexa disponible para fabricantes de terceros. ¿Es probable que Apple o Microsoft hagan eso? Yo creo que no.

Alguna información en esta respuesta de:

Revisión de Amazon Echo: la experiencia de hogar conectado que no sabías que querías

Amazon Echo agrega 1000 nuevas características, haciéndolo aún más increíble

17 cosas sorprendentemente útiles que Amazon Echo puede hacer

27 cosas geniales que puedes hacer con Amazon Echo

Katherine Lazarevich

En primer lugar, el uso y la retención de los productos de reconocimiento de voz definitivamente están creciendo. Esto se debe en gran parte al hecho de que la precisión en los últimos años finalmente ha llegado al punto de que es lo suficientemente bueno como para ser realmente útil. Tan preciso, de hecho, que se necesita poca o ninguna capacitación para usar un producto con reconocimiento de voz. (Solía ser que tendrías que leer varias historias de entrenamiento para obtener una precisión adecuada). Otra señal de que están creciendo es que Amazon acaba de agregar dos dispositivos nuevos a su línea de dispositivos habilitados para Alexa: el Echo Dot y Amazon Tap.

En cuanto a si es una novedad o no, esto depende completamente de cómo se utiliza cada sistema individual. Al principio, creo que es una novedad para casi todos. Es divertido preguntar sobre el clima o la respuesta a una pregunta de trivia y hacer que el agente de reconocimiento de voz (ya sea Siri, Amazon Echo, Google Now o Cortana) responda con información precisa. Y no hay duda de que para algunas personas la utilidad de estos dispositivos termina ahí.

Sin duda, hay muchos lugares donde una interfaz de voz no sería deseable: una sala de cine, una iglesia o quizás un lugar de trabajo abierto donde las personas se sientan en escritorios en una habitación compartida. También hay entornos en los que una interfaz de voz no sería muy útil debido a posibles problemas de reconocimiento, como un club nocturno lleno de gente o un sitio de construcción ruidoso.

Pero ser capaz de interactuar con el entorno que te rodea y recuperar información de la web con tu voz puede ser poderoso y habilitador. En cierto sentido, su voz se convierte en una “tercera mano” que puede ayudarlo a veces, sus manos físicas están ocupadas haciendo otra cosa. Dos lugares en los que una interfaz de voz es realmente útil son la cocina y el automóvil.

Uso Alexa bastante ampliamente cuando estoy en la cocina. Mientras prepara una comida, sus manos a menudo involucran una variedad de actividades que hacen que sea difícil o indeseable usar una tableta o computadora. Con Alexa puedo escuchar casi cualquier tipo de música para mi estado de ánimo, y puedo omitir canciones que no me gustan. (Obviamente, también puedo pedir canciones por nombres). Pero va mucho más allá de eso. También puedo escuchar las últimas noticias y pedir conversiones (lo que realmente es útil: “Alexa, ¿cuántas onzas son 350 mililitros?”) Cuando termine y ponga la comida en el horno, puedo configurar Alexa. Un temporizador para mí. Cuando el temporizador se apaga, el Echo parpadea mis luces Philips Hue en la sala de estar, por lo que no tengo que preocuparme de no escuchar el temporizador en la cocina.

En el automóvil, una interfaz de voz definitivamente no es una novedad. Los autos han tenido interfaces de voz durante años, aunque no mucha gente que conozco usa la suya. Los fabricantes de automóviles incluyen interfaces de voz porque permite a las personas mantener la vista en la carretera en lugar de mirar los controles del automóvil. Pero la cantidad de personas que utilizan el reconocimiento de voz en los automóviles, ya sea el sistema incorporado o algo más como Siri o Google Now, está creciendo. Dado que las personas no dejarán de usar sus teléfonos celulares, una interfaz de voz se vuelve crítica para ayudar a mantener las manos de las personas en el volante en lugar de sostener su teléfono.

Fuera de las limitaciones impuestas por el lugar donde está utilizando estos asistentes de voz, está la cuestión del contexto. Estoy convencido de que esta es la mayor barrera para los sistemas de interfaz de voz de adopción generalizada. Si bien puede parecer bastante impresionante preguntarle a Siri “¿cuáles son los mejores lugares de barbacoa a mi alrededor?” Y obtener buenos resultados, la realidad es que todos estos sistemas tienen formas de entender completamente el contexto de lo que se pregunta más el tiempo. La forma en que se formula una pregunta también es importante, ya que obliga a los usuarios a probar diferentes formas de formular una pregunta para obtener una respuesta válida.

Finalmente, el rango de preguntas que se pueden hacer es bastante limitado. Todos estos sistemas parecen manejar bastante bien la reproducción de música, las conversiones o la búsqueda de información que ya está disponible en Internet. Pero pregunte cualquier cosa complicada, y obtendrá una respuesta como “lo siento, pero no entiendo la pregunta”. Esta es el área en la que veremos la mayor mejora en los próximos años, a medida que estos sistemas aprendan más sobre las personas que los usan, mejorarán al hacer predicciones o recomendaciones.

Scott Danzig

tl; dr: sí, pero todavía tenemos trabajo que hacer, pasar de la etapa “genial” a la etapa de utilidad.

Como humanos, hemos estado hablando durante un tiempo, probablemente hablando entre nosotros durante 100,000 años o más, no hace falta decir que somos bastante buenos para hablar y escuchar. Finalmente comenzamos a escribir cosas. Luego hicimos computadoras, y dado el estado de las cosas, fue más fácil enseñar a los humanos a usar computadoras en lugar de al revés. Me gusta pensar en eso como la era oscura de la interacción humano-computadora. Creo que estamos a punto de llegar a la edad de oro pronto …

Sé un poco sobre las interfaces de usuario de voz y los asistentes de voz en mi rol en Google …

Las interfaces de voz de computadora han existido por más de 10 años en forma de IVR, o desde 1846, dependiendo de lo que incluya. Hasta hace poco, estos sistemas estaban apenas un paso más allá de los libros Choose Your Own Adventure de mi infancia, con un guión estricto y básicamente de naturaleza lineal, hicieron poco para simular la conversación entre humanos. Con la promesa de la Inteligencia Artificial General, estamos en el horizonte de poder realmente tener una conversación sin guiones de forma libre con computadoras, usando lenguaje natural. Dicho esto, todavía no hemos llegado.

Como diseñadores buscamos inspiración en la ciencia ficción. Jarvis en Ironman, Kitt, The Star Trek Computer, OS1 en la película de Spike Jonze. Cuando observamos estos sistemas, vemos aspectos, destellos de lo que pueden ser estos sistemas, el asistente perfecto, el compinche, la fuente del conocimiento, el compañero siempre disponible. Pero todas son solo piezas, ninguna es perfecta y cada una tiene sus propios defectos, explícitos o implícitos.

¿Cuándo y por qué queremos o necesitamos estos sistemas? Hemos identificado algunos escenarios clave en los que su utilidad brilla, si bien estos son solo conceptos, ayudan a comprender cómo cualquier asistente de voz podría proporcionar una mejor experiencia que una interfaz táctil o basada en pantalla.

Accesibilidad : los sistemas tradicionales de accesibilidad de voz para personas con limitaciones de acceso, a menudo usan “toque de voz”, lo que significa que los elementos en pantalla se identifican con números o etiquetas, y el usuario los “toca” diciendo el nombre o la etiqueta del elemento. Funciona, pero no es muy natural. Compare eso con “Enviar un mensaje a Jon, diciendo ‘Llegaré 5 minutos tarde'”
Ojos ocupados y manos ocupadas : escenarios como conducir, cocinar, trotar o interactuar con el mundo en situaciones en las que sus manos u ojos necesitan enfocarse en algo que no sea una pantalla o dispositivo. “¿Cuánto tiempo necesita asar?” “ok, configure un temporizador para 5 minutos” o “me estoy quedando sin gasolina, búscame una estación Shell a lo largo de mi ruta”
Casos en los que el análisis de información es difícil de procesar en una pantalla sin interacciones complejas o búsqueda manual: “¿cuándo es mi próximo martes con un espacio libre de 2 horas?”
Automatización del hogar : “Hola, estoy en casa”, “Buenas noches”, que desencadena comportamientos complejos basados en reglas que orquestan muchos dispositivos a la vez.

Los bloqueadores clave para las interfaces de voz realmente agradables y naturales están en parte en el ámbito de la ingeniería (inteligencia artificial, síntesis de voz y reconocimiento), muchos otros son el diseño, el manejo de errores, el desarrollo de personas, el desarrollo de patrones de diálogo y la comprensión de las necesidades reales del usuario. . En lugar de construir algo que sea simplemente genial o brevemente entretenido.

Personalmente, imagino un futuro en el que un asistente de voz puede actuar como control de tierra para los muchos servicios con los que interactúo día a día, en el trabajo, el hogar, el tránsito, el servicio de alimentos, las finanzas, etc., liberándome de ir a diferentes interfaces, superficies e interfaces desconocidas para realizar tareas que se manejan realmente mejor con la voz.

Dedos cruzados.

Katherine Lazarevich

Sí, Echo y Siri en particular están preparados para crecer exponencialmente en la frecuencia y el propósito (lectura, utilidad) de su uso dentro de los próximos 12-24 meses. El uso crecerá por algunas razones:

Interfaz. A pesar de los grandes esfuerzos y el gran progreso con visual, gestos y otras interfaces de usuario, Voice ofrece una interfaz mucho más natural y, por lo tanto, altamente deseable para el conjunto de tecnologías cada vez más fragmentado y complicado que utilizamos a diario (tecnología personal, electrodomésticos, automóviles, etc. ), y es exponencialmente más importante debido a …
El internet de las cosas. El uso de IoT, tanto de consumo como industrial, está creciendo a un ritmo exponencial, y está realmente al borde de lo que será una curva de utilidad y adopción en forma de palo de hockey. Las tecnologías de IoT finalmente están madurando el objetivo del propósito realmente práctico y útil (versus “gadget” o interés de nivel aficionado). ¿Por qué es esto importante, relacionado específicamente con Echo y Siri? Ver la próxima viñeta.
Enfoque de plataforma. Amazon y Apple están adoptando los enfoques correctos (aunque estructuralmente diferentes) para convertirse en el punto central de acceso y / o plataforma para la miríada de dispositivos de Internet de las Cosas que están apareciendo en casi todas las áreas imaginables de tecnología de consumo e industrial (y algunos que parecen inconcebibles). Amazon no tiene O / S, pero tienen las API, las plataformas de back-end y el poder / alcance para ser un socio deseable para estas empresas de IoT. Lo mismo ocurre con Apple, especialmente con la evolución continua (y acelerada) de HomeKit y la extensión de la interfaz del Apple Watch.

En resumen, la confluencia de tendencias de la creciente madurez y precisión de los controles de voz, la creciente madurez y fragmentación de la IoT, y la creciente necesidad de métodos unificadores y simplificadores de acceso a tecnologías cada vez más fragmentadas y complejas apuntan a Echo y Siri volviéndose mucho más útil y presente en nuestra vida diaria en el futuro inmediato.

Igor Markov

Como la pregunta no se trata de que Amazon Echo / Alexa sea “útil para mí / categoría particular de personas”, supongamos que se trata de si es útil para Amazon o si será utilizado como una herramienta por un gran número de personas.

Jeff Bezos no es conocido por sus proyectos de vanidad y yo también. Bezos es una mezcla impresionante y subestimada de visionario y capacidad de entrega. Además de crear un enorme centro comercial virtual que abarca la mayor parte del mundo, Amazon es responsable de dar vida al concepto de computación en la nube tal como lo conocemos e interrumpir los medios impresos que han existido durante siglos con el Kindle.

Wikipedia afirma que Echo está en desarrollo desde “al menos 2010” (sin fuentes); Si este es el caso, la visión es anterior a la adquisición de Siri por parte de Apple, y el peligro de IBM. ganar. Amazon adquirió al menos tres empresas en el espacio de la tecnología del lenguaje, todas bajo el radar pero bastante capaces. Recientemente, Amazon creó un fondo de inversión de $ 100 millones para alentar el desarrollo del ecosistema Alexa.

Por lo tanto, claramente no es un proyecto “yo también” para construir una estafa de Siri / OK Google / Cortana.

Inicialmente, los revisores consideraron esto como una estratagema para hacer que la gente compre más cosas desde o a través de Amazon. Sin embargo, Amazon ya es dominante y no desaparecerá pronto, ¿no es una exageración excesiva?

Creo que la verdadera razón más importante es que Amazon busca el mismo espacio que ha sido muy disputado durante las últimas dos décadas. Hace solo unos años, esa fue la razón por la que Google persiguió a Facebook, creando el desafortunado Google+. Anteriormente, Amazon ya tenía problemas con A9, lo que por cierto no era malo en absoluto, y estaba perfectamente integrado con la búsqueda de productos de Amazon.

El botón de Inicio para Internet .

La idea de crear un portal universal de control de voz o lenguaje ha existido por mucho tiempo. Los asistentes virtuales, que parecen ser considerados como campanas y silbidos menores por la mayoría, también son un paso en esta dirección. Lo diferente de Echo es el esfuerzo invertido en la construcción del ecosistema . Hoy en día, Echo está integrado con la automatización del hogar, los servicios de transmisión y trabaja arduamente para acumular capacidades adicionales; compárelo con Siri, que aprende un par de “trucos” desde su introducción hace 5 años, sin ningún plan de abrir el SDK. Los departamentos de marketing se están quedando sin ideas sobre cómo convencer a los usuarios para que usen los asistentes virtuales. ¿Y cuándo usarías tu asistente virtual? A menos que esté en su casa o en su automóvil, es más discreto y conveniente operar su teléfono en silencio en lugar de gritar información privada, tratando de vencer el ruido de fondo. (Esta es una de las razones por las cuales los mensajes de texto continúan ganando terreno). En el nivel práctico, un automóvil es demasiado ruidoso y se requiere concentración, por lo que, básicamente, los asistentes virtuales en el móvil son en su mayoría aptos para el hogar. Por otro lado, Echo nunca estaba destinado a ser transportado.

Amazon parece estar tratando a Echo menos como un gadget y más como una puerta de enlace para construir una plataforma. Al igual que sucedió con iPhone, Facebook, Salesforce.com. Excepto que, al igual que la pantalla, Amazon Echo puede buscar y encontrar y operar dispositivos en su hogar.

Recuerde esta imagen (ADVERTENCIA: lenguaje ofensivo): ¿Google en 20 años? Aunque podría no ser Google, esta parece ser la visión de Amazon Echo.

Como anécdota, el uso de Alexa está creciendo: cada vez escucho más sobre él. También veo que el ecosistema está creciendo.

¿Echo es un éxito garantizado? No absolutamente no. El lenguaje natural es notoriamente difícil y una de las áreas tecnológicas más desagradecidas. Pruebas de conceptos y demostraciones sorprendentes con datos de juguetes son de diez centavos; escalar el software al alcance infinito del contenido lingüístico del mundo real es el verdadero desafío.

Hoy, Amazon cobra un poco menos de $ 200 por Amazon Echo, que no es la forma de volverse omnipresente; Supongo que es considerado como una “edición de desarrollador”, y tal vez evitar una adopción de pantalla panorámica es un objetivo secundario: en cierto modo, es una “beta limitada” para los primeros usuarios. Después de que esté listo para el usuario común, el precio puede reducirse o Alexa puede estar disponible a través de tiendas de Android o en otros dispositivos.

Lo estimé como un 65% de posibilidades de éxito desbocado y un 35% desvaneciéndose en la oscuridad. Por otro lado, los asistentes virtuales basados en teléfonos móviles tienen una usabilidad limitada.

Matt Basta

Espera, Siri y Alexa hacen casi las mismas cosas, ¿verdad?

No exactamente. Ambos tienen un valor limitado HOY . Mañana serán más útiles. Y dentro de unos años, probablemente se convertirán en partes cotidianas de nuestras vidas.

Pero con respecto a Siri y Alexa, aquí estamos comparando manzanas con naranjas (juego de palabras). Y en términos de la utilidad real del mundo real HOY, la naranja (Alexa) gana.

¿Por qué?

Llegaré a eso en un segundo. Pero primero, echemos un vistazo al IoT. Se espera que alcance los $ 2.2 billones para 2020. Eso es billón con 12 ceros.

La AUTOMATIZACIÓN DEL HOGAR es la pieza más importante del pastel IoT, y tiene los jugadores tradicionales en Samsung, Apple y otros. Amazon quiere participar, y Alexa Echo es una gran parte de su estrategia.

Alexa es superior para el uso diario HOY.

¿Por qué? Para completar tareas cotidianas, mundanas y simples en el hogar, el control por voz que no requiere ninguna otra entrada (es decir, táctil) es superior.

Ejemplos:

“Alexa, juega a Pandora”.

“Alexa, noticia de última hora”.

“Alexa, el clima”.

“Alexa, enciende la luz del pasillo”.

“Alexa, lee valores atípicos”.

“Alexa, eleva la temperatura a 72 grados” [Hmmm … eso no parecía funcionar]

“Alexa, juega al asombroso Wordmaster”.

Nada de lo anterior requiere que busque en mi bolsillo, saque un dispositivo, presione botones o mire una pantalla. Todas estas son cosas muy útiles para poder hacer (bueno, tal vez no Wordmaster) mientras, por ejemplo, estoy descargando comestibles y comenzando la preparación de la cena.

Hacer partes de estas tareas con Siri podría ser posible, pero sacaría a una persona de su ritmo natural. Pierde el tiempo. Y a veces, es simplemente torpe.

[Desbloquear teléfono–> Presione el botón de inicio -> “Siri, Play Pandora” -> Airplay al altavoz.] ¿WTF?!?!?

“Alexa, Play Pandora” funciona muchísimo mejor.

Por cierto, ¿recuerdas este producto en 1985? Hago. Compré uno

El punto es que todavía estamos conociendo algunas de las formas en que se utilizará Alexa.

Y de alguna manera, Amazon está enturbiando las aguas y haciendo que sea un poco complicado para los clientes encontrar y comprender la forma más fácil de utilizar las habilidades de Alexa. Pero, por desgracia, están inmersos en una carrera armamentista por dominar la domótica, de ahí la prisa loca por integrar todos los dispositivos IoT que existen.

En general, Echo promete mucho como unidad de comando central para el hogar. La esperanza de Amazon es, por supuesto, que Alexa se convierta en el Asistente de voz de facto para todo lo relacionado con el hogar. Tienen una gran ventaja.

Pero aún está lejos de ser perfecto. La integración de IFTTT está llegando, pero en algún momento, todo debe ser MÁS FÁCIL. Hoy en día, los usuarios de IFTTT siguen siendo muy geeks / nerds. Sin embargo, mañana y dentro de unos años, eso probablemente cambiará.

Siri ha estado luchando una batalla cuesta arriba por la aceptación. Piénsalo. El iPhone se presentó en 2007. Apple presentó un producto que era tan hermoso, y su uso dependía completamente del uso de la entrada táctil y de recibir (principalmente) comentarios visuales. Siri no se presentó hasta octubre de 2011. Para entonces, los hábitos de uso táctil / visual ya se habían arraigado profundamente en millones de usuarios de teléfonos inteligentes. Cuando Siri finalmente fue presentada, ella no era confiable, y en muchos sentidos, antitética a la filosofía de deleite y confiabilidad de Apple. Se supone que los productos de Apple “solo funcionan”, y Siri, francamente, no era confiable.

Entonces … hábitos de uso que son difíciles de romper, un “asistente” poco confiable, todo eso se suma a un gran porcentaje de usuarios que todavía no aceptan a Siri.

¿Eso significa que Siri es solo un truco?

¡No! A pesar de haber estado en la cuadra varias veces más que su prima Alexa, sus beneficios no siempre son tan evidentes.

Siri ha sufrido muchos abusos a lo largo de los años, por no ser más que un truco. Pero eso está cambiando y espero que continúe cambiando. Siri hace algunas cosas muy bien, algunas incluso más efectivamente que Alexa. Es muy buena para hacer cosas como crear citas en el calendario, seleccionar números aleatorios del 1 al 100 y dar instrucciones de manos libres al Starbucks más cercano. Siri es perfecto para tales tareas, pero no tan bueno cuando se trata de domótica. Leer más …

¡Hey, no se suponía que fuera Siri vs. Alexa!

Tienes razón. La pregunta era sobre cuán útiles son los Asistentes de voz. Para teléfonos inteligentes y tabletas, tienen un valor limitado HOY. Como se mencionó anteriormente, Siri está luchando una batalla cuesta arriba. Sin embargo, a medida que la tecnología continúe madurando y sea más reciente, los usuarios más jóvenes comenzarán a adoptarla, inevitablemente se convertirá en una forma fundamental de interactuar con la tecnología.

Amazon está acelerando la adopción.

Echo no está compitiendo con la retroalimentación visual o la aportación táctil como lo tiene Siri. Y esa es probablemente la forma en que Amazon lo quiere.

Amazon lanzó recientemente el Echo Dot, un producto relacionado de Alexa. Me emocioné mucho con esto. Y en mi apuro por ordenar, hago lo que normalmente hago: abrir la aplicación de Amazon en mi iPhone. ¡Desliza, toca y listo! Pero entonces sucedió algo extraño. ¡No pude pedirlo! Entonces leí esto:

¡Inteligente! Podemos deducir que Amazon está obligando a los clientes a aclimatarse a usar la voz y atraer a los usuarios existentes de Echo aún más profundamente en su ecosistema de automatización del hogar. En realidad, nunca había pedido nada con mi Echo, ¡hasta esto!

¿La línea de fondo? Con 33,000 comentarios y contando, es obvio que Alexa / Echo es un éxito de ventas desbocado. También tiene una calificación de 4.5 estrellas, por lo que es una buena indicación de que a la gente realmente le gusta el producto. Apostaría a que las ventas del Dot también serán muy fuertes, lo que ilustra aún más la tracción.

Un día, ESTO será realmente posible.

Christopher Franklin

Prefacio

Amazon Echo y Siri son los precursores de los “agentes de datos” con funciones completas. Actualmente, dichos servicios representan “mayordomos virtuales” o “valets digitales” rudimentarios que, eventualmente, se convertirán en entidades multifuncionales relativamente autónomas (es decir, hardware y software). Estas construcciones ayudarán a individuos y grupos con la logística y la programación que tienden a saturar los pensamientos y las listas de tareas de nuestra vida diaria. Los teléfonos inteligentes existentes ya incorporan muchas de estas nociones a un nivel mucho más básico.

El IOT :

En la actualidad, están surgiendo muchas facetas de este concepto, aunque de forma fragmentada. Un buen ejemplo es cómo el IOT (Internet de las cosas) puede facilitar la vida cotidiana. Imagine refrigeradores con un escáner de código de barras integrado en el borde del marco de la puerta. Siempre que se retire un producto empaquetado comercialmente y no se vuelva a colocar dentro , el aparato agregará este artículo a una lista de compras electrónica. Esto puede almacenarse en un teléfono inteligente o imprimirse según sea necesario. También son posibles avisos automáticos sobre las fechas de vencimiento y la planificación del menú que utiliza esos alimentos.

Cuando se le solicite, ya sea verbalmente o por GPS externo o activadores de Wi-Fi, los agentes de datos existentes como Siri o Echo le recordarán que compre más de este producto durante las visitas al supermercado. Por extensión, nuevamente con permisos de usuario específicos, esta aplicación podría incluso colocar el artículo en una lista de “comprar” para un comprador personal o servicios de entrega a domicilio como Peapod y Amazon Prime.

Dicha aplicación puede tener modificadores relativamente sofisticados que determinan si un producto está a la venta, fuera de temporada o disponible en alguna forma alternativa (por ejemplo, empaque congelado o aséptico). Los sistemas expertos incluso podrán sugerir menús elaborados de alimentos junto con maridajes para cerveza, vino y otras bebidas. A medida que estos servicios se expanden, los agentes podrán examinar todo el inventario de una tienda (o tiendas) y proporcionar resultados aún más complejos.

Vehículos autónomos :

Lo anterior solo se refiere a la comida. Existe una amplia gama de otras funciones que un asistente digital de alto nivel podrá realizar. La conexión de viajes, incluso hasta el punto de reorganizar un camino de conducción para tener en cuenta los atascos de tráfico, que reduce el consumo de energía, ahorrará tiempo y mitigará las emisiones. Eventualmente, estos agentes interactuarán con vehículos autónomos y los enviarán directamente al muelle de carga o puerta de entrada del proveedor de servicios. Y no solo por comida. La recogida y entrega de la limpieza en seco, otras compras minoristas y todas las tareas menores que acosan a los urbanitos acosados pueden automatizarse de manera similar.

A medida que dichas redes se expanden y los vehículos autónomos se vuelven más ricos en funciones, el transporte personal podría incluso presentar un compartimiento refrigerado que podría contener productos perecederos después de una operación de compra que se realizó durante las horas de descanso (es decir, 3:00 a.m.). Los vehículos eléctricos se volverán a conectar automáticamente a las estaciones de recarga después de regresar a la base o después de haber salido a buscar comida mientras una persona está en el trabajo. Tal agente incluso podrá realizar un intrincado análisis de costo-beneficio para determinar si vale la pena gastar un dólar extra para reducir el rango de manejo (y el gasto de energía) o satisfacer mejor las demandas de programación.

Surge una gama completa de patrones de consumo JIT (Just In Time) facilitados que tienen el potencial de mitigar las tendencias negativas actuales en los hábitos de compra de los consumidores. No solo se podrían reducir las compras excesivas (es decir, el acaparamiento innecesario o el consumo excesivo), sino que, con el intercambio de datos de banda ancha a través de estos agentes de datos, el MRP industrial real (Planificación de requisitos de materiales) podría adaptarse de manera que redujera los impactos ambientales mucho más allá de lo previsto hoy .

Finanzas personales :

Los asistentes digitales también ayudarán a administrar los presupuestos para optimizar los patrones de gasto, minimizar el gasto en compras de crédito o servicios especiales, e incluso proporcionar funciones de seguridad como el seguimiento de niños y mascotas. A medida que aumenta la cobertura global, características similares simplificarían los detalles de los gastos y la planificación de las vacaciones en el extranjero o los viajes de negocios en una medida que solo se puede imaginar en la actualidad. Solo las funciones de traducción de idiomas en tiempo real representarán una bendición de grandes proporciones.

Impresión 3D :

A medida que la tecnología de procesamiento aditivo alcanza la capacidad operativa total, la oportunidad de fabricación a pedido de productos previamente subcontratados se convertirá en otro aspecto de cómo el flujo de datos interconectados puede mejorar nuestras vidas. Ya sea un pastel de cumpleaños helado personalizado (completo con la imagen de la foto del celebrante sobre él) o un vendaje ajustado cuando se conduce a casa desde una caída de senderismo, un agente personal gestionará muchos de estos detalles con suma facilidad.

Seguridad :

Como siempre, cualquier tecnología como esta traerá consigo riesgos específicos. Hasta que la seguridad de datos de Ironclad sea posible, el IOT, en particular, representará una oportunidad para el monitoreo intrusivo y el robo de identidad en una escala sin precedentes. Esto no es una verdadera sorpresa, ya que cualquier forma de tecnología siempre ha traído consigo los riesgos inherentes del “uso dual”. Sin embargo, a medida que los asistentes digitales se vuelvan más sofisticados, y la gente confíe en ellos en mayor medida, aumentará el potencial de abuso devastador.

Todo esto prescribe importantes reescrituras a los códigos judiciales existentes que asignan sanciones y períodos de encarcelamiento mucho mayores por la interrupción o intromisión atroz de la identidad cibernética de un individuo o grupo. Si se pudiera garantizar una seguridad de datos confiable, un asistente digital podría proporcionar una coartada creíble en caso de dificultades legales o penales. Nuevamente, la subversión y el mal uso de dicha función es solo otro ejemplo excelente de la naturaleza de doble filo de esta tecnología.

Conclusiones :

La mayor parte de lo que ha leído sobre asistentes digitales personales en varias historias de ciencia ficción se convertirá en una realidad. Es solo cuestión de tiempo. Para un examen en profundidad de cómo esta tecnología podría afectar a la humanidad y a la sociedad en general, considere leer los trabajos del autor de ciencia ficción Peter Hamilton (Commonwealth Saga, Void Trilogy). Su visión de “biotek” (biotecnología) es una de las más precisas, completas y entretenidas hasta la fecha.

Imagine tener un implante de almacenamiento de datos que interactúa de manera tan completa con su cuerpo y cerebro por medio del cual podría registrar, con gran detalle, toda su experiencia corporal minuto a minuto. Podrías navegar por Internet en tus retinas, tener idiomas extranjeros enteros implantados en tu memoria mientras duermes y disfrutar de todas las funciones imaginables de los agentes de datos descritos anteriormente. El retiro de precisión convertiría a esas personas en los testigos legales más creíbles.

Nos guste o no (y Hamilton aborda hábilmente los pros y los contras de la biotecnología), la utilización humana de la tecnología continuará impulsando esta fusión del ciberespacio y el “espacio de la carne” (según William Gibson). La medida en que nosotros, como individuos, adoptamos y participamos en esta realidad combinada es estrictamente una cuestión de elección personal. De todos modos, como con el acceso a Internet, debido a este tipo de mejora, ya sea agentes de datos personales o biotecnología avanzada, surgirán nuevamente los problemas de “los que tienen” y “los que no tienen”. Esta será una de las últimas “divisiones digitales” en toda la existencia humana. Siri y Echo son solo tenues destellos de lo que nos espera en el horizonte del futuro.

Miguel Paraz

Hay una vieja anécdota en los círculos de ingeniería y diseño sobre la construcción de un campus universitario. Se levantan los edificios, pero las pasarelas se dejan sin planificar. ¿Por qué? Quieren ver dónde emergerán los caminos naturales desgastados. ¿Por qué predecir cuándo puede analizar los datos del usuario?

Esto es realmente solo una adición a las otras respuestas, ya que creo que hay un aspecto que hemos pasado por alto.

El punto de Alexa, Siri, Cortona y Now tiene poco que ver con la utilidad actual.

Como otros han señalado, cada plataforma realmente tiene una colección limitada de casos de uso activo, de los cuales solo uno (control del teléfono mientras se conduce) está realmente cerca de un “cambio de juego”.

Entonces, ¿por qué la inversión masiva en este espacio?

Porque la adopción temprana de casos es lo que les permite consolidar su lugar en el mercado y crear las mejoras que la gente quiere.

Notarás que las cuatro plataformas mencionadas pertenecen a compañías de datos masivas, cuya relevancia continua en un mundo en evolución depende de tener la mejor comprensión de la intención del usuario (eso es lo que siempre intentamos habilitar con menos fricción).

¿Qué mejor entender eso que dejar que los clientes te lo digan literalmente?

Tenga esto en cuenta: no existe una consulta Siri fallida. Es solo una cuestión de quién gana y en qué línea de tiempo. Al hacerle una pregunta, crea un punto de datos para el análisis. “Oh, ¿entonces los usuarios hacen esa pregunta? Interesante”. Si su pregunta se repite suficientes veces, eso les permite crear un producto correspondiente en el futuro. A la larga, tu deseo se hace realidad.

Esos cuatro productos solo se usan en algún lugar alrededor de 2.500 millones de veces por semana (combinados). Es un tesoro de datos del mundo real que ayudará a cada empresa a consolidar su posición en su mercado (además de crear el mercado). Una startup más pequeña que podría tener una mejor IA tendrá dificultades para aprobarlas, ya que no tienen forma de recopilar ni siquiera un punto porcentual de ese tipo de archivo de datos.

Como otros han dicho, la belleza de la tecnología de voz es que reduce la carga cognitiva de realizar cualquier función. Intuitivamente, puedes ver cómo será una característica imprescindible de cualquier tecnología de última generación. Como tal, las compañías que quieren ser parte de ese futuro están en una carrera armamentista para recopilar los datos y perfeccionar la ciencia antes de su competencia.

(Por dichos motivos, espere que Facebook se una a la refriega pronto con su adición “M” a Messenger, con el objetivo eventual de que se integre con su gráfico local).

Christopher Franklin

Asistente virtual inteligente: todo lo que necesita saber sobre los asistentes de inteligencia artificial, de Siri a Ozlo: la visión general de la industria de mil millones de dólares

Para saber más información sobre tecnología de asistente virtual inteligente y análisis de la industria futura: http://bit.ly/2yvMklD

Una encuesta en línea realizada en mayo de 2017 encontró que los más utilizados en los EE. UU. Fueron Siri de Apple (34%), Asistente de Google (19%), Amazon Alexa (6%) y Microsoft Cortana (4%). La mayoría de los actores del mercado se están centrando en expandir su cartera de productos y presencia regional a través de fusiones y adquisiciones. También se han mostrado más dispuestos a gastar en innovaciones para permitir el uso inteligente del asistente virtual en diversas aplicaciones. Esta tendencia se está acelerando gradualmente, a medida que más empresas ofrecen servicios públicos como autoservicio, acceso a guías internas para empleados, mejor experiencia del cliente e informes inteligentes.

Por ejemplo, Nuance Communications Inc., en junio de 2016, amplió su oferta de atención médica utilizando tecnologías inteligentes de asistencia virtual en servicios médicos y clínicos. Además de esto, un número cada vez mayor de actores más pequeños del mercado buscan aumentar su cartera a través de asociaciones estratégicas. Dichas estrategias adoptadas por los jugadores tendrán un impacto significativo en el mercado global de asistentes virtuales inteligentes en el transcurso del período de pronóstico.

Algunas de las compañías prominentes que operan en el mercado global de asistentes virtuales inteligentes son CodeBaby Corporation, eGain Communications Corp., Nuance Communications Inc., Artificial Solutions Ltd., Anboto Group, Creative Virtual Ltd., Speaktoit Inc., Next IT Corporation e IntelliResponse Systems Inc.

John L. Miller

El mercado de asistentes personales casi se duplicará en 2018, llegando a más de $ 12 mil millones para 2020 con 1.6 mil millones de usuarios activos , según Statista.

¿Por qué los asistentes de voz son tan populares ahora?

# 1 Interfaz de lenguaje natural.

El lenguaje natural es más intuitivo que las interfaces web o móviles. No es de extrañar, ¿verdad? En lugar de desplegables, casillas de verificación, los asistentes personales de conmutadores permiten a los usuarios formular consultas de forma natural y no requieren una curva de aprendizaje. Al menos no se supone que lo hagan.

# 2 Personalización

Los asistentes virtuales con tecnología de inteligencia artificial emplean el aprendizaje automático para refinar sus respuestas y ofrecer solo opciones relevantes basadas en las preferencias del usuario. Pueden proporcionar todo, desde información de datos que están fácilmente disponibles en Google hasta contenido específico de campo almacenado en bases de datos integradas.

# 3 Conectividad

Según BI Intelligence, para 2020 se instalarán más de 24 mil millones de dispositivos IoT inteligentes. Definitivamente, la mayoría de estos dispositivos se conectarán a su teléfono. Espero que algún día pueda pedirle a Siri que me prepare café en la mañana 🙂

# 4 productividad.

La interfaz de voz no solo es más rápida de usar, sino que también crea la comunicación más enfocada entre los usuarios y la tecnología. Y facilita la vida humana al asumir tareas rutinarias y repetitivas.

Pero, los motores de PNL todavía se están formando. Y hay mucho más trabajo por hacer antes de que pueda ser una corriente principal.

John L. Miller

Un amigo mío que fundó una startup de procesamiento de voz de más de 10 años dijo: “Siri es un lindo truco de salón”. Es divertido presumir, pero realmente no abre nuevos mercados o valores significativos.

La generación actual de asistentes de voz realiza un trabajo increíble de reconocimiento de voz y ejecuta tareas simples que siguen patrones lingüísticos predecibles como “Configurar mi alarma a las 3:00 PM”, “¿Qué tiempo hace en Poughkeepsie?” o “Abra las puertas de la bahía de pod”. Eso es amable. Es una excelente interfaz adjunta para muchos dispositivos y tiene una utilidad notable, pero probablemente no genera un nuevo mercado por sí misma. En cambio, se ha convertido en apuestas para la electrónica de consumo.

La gente espera poder elegir su canal con su voz
La gente espera que su teléfono inteligente responda preguntas simples
La gente espera que la navegación de su automóvil sea un destino

Estos pueden impulsar actualizaciones al sistema existente, pero en realidad no abren nuevos mercados.

Amazon Echo abrió inteligentemente un nuevo mercado porque proporciona una plataforma para que los sistemas encajen su software en la plataforma de reconocimiento de voz. Sin embargo, si ya tiene su teléfono inteligente, no agrega mucho valor, excepto como un juguete genial. En cualquier caso, el sistema aún sufre la limitación de responder solo a preguntas y comandos bien estructurados.

La percepción del habla será donde surjan el nuevo dinero y los mercados. Si puedo lograr que un sistema haga un análisis cognitivo real en un conjunto de datos o mantenga una conversación significativa sobre un tema, de repente tienes algo nuevo. Esta es la dirección hacia donde se dirigen los sistemas de inteligencia artificial como IBM Watson. También es hacia donde se dirige la IA impulsada por la conversación, con pensamientos como compañeros robot y “robots de empatía”. (Ver: ¿Tu próximo mejor amigo será un robot?).

Jonathan Brodsky

Creo que lo primero que hay que tener en cuenta al analizar esta pregunta es cuál es el caso de uso real de los asistentes de voz. En casi todos los casos, el uso de la voz es simplemente un acceso directo: esencialmente no hay tareas que Siri, Alexa, Cortana o Google Now puedan realizar que escribir en un cuadro de búsqueda o abrir una aplicación ya no puede realizar. El atractivo de los asistentes de voz es la conveniencia: no tener que sacar el teléfono del bolsillo, no tener que escribir una pregunta larga, no tener que encontrar la aplicación correcta, etc.

Los asistentes de voz hacen un gran trabajo al respecto. Puedo decirle a Google Now, por ejemplo, “reproducir mi lista de reproducción Thumbs Up” y Google Play Music se abrirá y comenzará a reproducirse en unos segundos. Mientras conduce, esta es una ayuda increíble. Mientras estoy ocupado preparándome para el trabajo, puedo preguntar qué tiempo hará en San Francisco sin tener que levantar mi teléfono.

Este tipo de interacciones fluidas son el quid de las experiencias en torno a los asistentes de voz. Esto los coloca en una clase completa de productos que están específicamente diseñados para eliminar el tipo de “micro fricción” del uso de nuestros dispositivos. Algunos de los competidores directos obvios:

Relojes inteligentes, que le permiten interactuar con su teléfono sin sacarlo
Apple CarPlay y Android Auto, que le permiten interactuar con su teléfono mientras conduce
El infame refrigerador de Internet, que le permite tener interacciones conectadas mientras … ¿cocina?
También existen algunos dispositivos diseñados especialmente, como Amazon Dash.

Cuando considera que un asistente de voz no es solo un truco de fiesta, sino que es una abstracción en torno a la interfaz de su teléfono (u otro dispositivo), la utilidad es mucho más sustancial. Es posible que los servicios individuales de asistente de voz no hagan un buen trabajo en esto, pero aún tienen un propósito muy válido: permitir que el usuario interactúe con la tecnología de la manera más fluida posible.

Para ese fin, la mayoría de estos servicios son muy útiles. Ignoremos la precisión del reconocimiento de voz (un detalle de implementación) y la amplitud de acciones que el servicio puede realizar (nuevamente, un detalle de implementación) por el momento. Ser capaz de encontrar una respuesta a una pregunta compleja o realizar una buena interacción en línea sin tener que navegar a través de una interfaz de usuario profunda o tediosamente escribir una consulta de búsqueda tiene un valor inmenso.

Considere, por ejemplo, el proceso de búsqueda sin voz. Primero, debe entrar en un contexto que pueda aceptar su consulta. Esto significa sacar su teléfono, desbloquearlo y encontrar un cuadro de búsqueda para escribir. Quizás había estado usando una aplicación anteriormente, que ahora necesita ocultar. Ahora, debe interactuar con el cuadro de búsqueda para indicar que desea buscar (tocar). Ahora, debe transmitir su consulta al dispositivo convirtiendo sus palabras en texto, tocando letras individuales de las palabras que está pensando. Finalmente, debe indicar que su consulta está completa presionando Enter o presionando un botón de búsqueda.

Cuando examinas cuidadosamente cada pequeña interacción que tienes con tu dispositivo, hay una gran cantidad de sobrecarga involucrada en simplemente llevar tu idea a la máquina. La tecnología de asistente de voz prácticamente elimina toda esa sobrecarga al permitirle expresar sus ideas en su forma más cruda.

Especialmente a medida que las tasas de reconocimiento de voz y la calidad de respuesta mejoran, los asistentes de voz serán más ampliamente reconocidos como útiles. Cuando considera a los asistentes de voz como un refinamiento de una interfaz existente, su adopción coincide con otros cambios que han tenido lugar en el pasado:

El cambio de grandes computadoras centralizadas a computadoras personales, donde ya no tenía que ir físicamente a algún lugar para usar una computadora
El cambio de computadoras de escritorio a computadoras portátiles, donde puede llevar su computadora con usted
El cambio de computadoras portátiles a tabletas, donde no necesitaba una bolsa separada para su computadora
El movimiento (en curso) de los ratones a las almohadillas táctiles y las pantallas táctiles, donde no necesita una forma intermedia de interactuar con las cosas en la pantalla de su dispositivo

Otros ejemplos se dejan como ejercicio para el lector.

La segunda parte de su pregunta es casi imposible de responder correctamente sin los números de los proveedores de servicios, que no están disponibles. Sin embargo, podemos hacer algunas inferencias.

Lo anterior es una captura de pantalla de las Tendencias de Google para “¿cómo siri?” (Rojo), “cómo hago google ahora” (azul), “cómo hago alexa” (verde) y “cómo cortano” (amarillo) . La tendencia es definitivamente hacia arriba y hacia la derecha, lo que indica que los asistentes de voz están llegando a más usuarios. Sin embargo, esto no se refiere a la retención, y hay pocas formas confiables de determinar si los usuarios están siendo retenidos (o más bien, si los usuarios están agitándose).

Otras indicaciones de que el uso de asistentes de voz está aumentando es el número de integraciones que se están desarrollando. Windows 10 comenzó a enviarse con Cortana, la mayoría de los teléfonos Android se envían con Google Now de forma predeterminada, los dispositivos iOS continúan enviándose con Siri, y los dispositivos Echo se encuentran entre los más vendidos en Amazon (y se están lanzando nuevos dispositivos Echo, como el Dot):

Las empresas tienen la obligación con sus inversores de obtener ganancias. La tecnología de asistente de voz ha existido durante casi media década, y su presencia continúa aumentando y su calidad continúa mejorando cada año. Además, responder tantas consultas conlleva un costo financiero para el proveedor de servicios, lo que hace casi inútil ofrecer un asistente de voz sin ningún incentivo financiero. Si el uso fuera bajo, es poco probable que las compañías continúen tomando decisiones de productos para invertir tiempo y dinero en ellas.

Con respecto a la retención, vale la pena señalar que en muchos casos, como con Siri y Google Now, el producto no es el asistente de voz. El producto es su teléfono o identidad en línea, y el asistente de voz es simplemente una abstracción además de eso. Incluso si un usuario no le pregunta a Google Now por el clima de mañana o para reproducir su lista de reproducción favorita, aún puede usar Google para consultar el pronóstico o usar Play Music para escuchar música. Google Now todavía está presente e instalado en el dispositivo del usuario (e incluso puede estar activo), por lo que las circunstancias en torno a la rotación del usuario deben considerarse cuidadosamente.

Jossilyn Gauda

Un prefacio a mi respuesta: tengo un Echo, uso Google Now con bastante frecuencia y solía usar Siri todo el tiempo cuando tenía un iPhone.

Echo de Amazon es un producto increíble. De hecho, mi esposa ama el Echo más que yo porque le da a alguien más para que lo mande cuando no estoy en casa :). No es una novedad y en realidad es útil para un conjunto específico de tareas. Lo uso en casa para reproducir música en la sala de estar, programar temporizadores para meditar / hornear, rastrear listas de compras o hacer preguntas de conocimiento al azar que de lo contrario buscaría en Google. Lo encuentro extremadamente útil para estos propósitos. Las anécdotas de otros usuarios muestran casos de uso similares (y otros mencionados en las respuestas de Scott Danzig y Matthew Bohrer).

El problema surge cuando las personas basan sus expectativas de desempeño en la ciencia ficción y el marketing y no en la realidad de dónde está la tecnología de inteligencia artificial en la actualidad en 2016. Dándole al Eco un comando para “buscar en YouTube los mejores tres videos de Donald Trump (político, negocios persona) y enviarlos a mi amigo Mark “probablemente no dará como resultado exactamente lo que tenía en mente cuando emitió el comando. Se necesita algo de aprendizaje, tanto del lado humano como del software, para aprovechar al máximo el producto.

El público en general parece estar de acuerdo conmigo. Una comparación de la cuota de mercado de varios fabricantes de altavoces para 2015 dice mucho (juego de palabras, har har har):

Amazon está claramente en una posición de liderazgo con un enorme crecimiento de ventas interanual sobre competidores establecidos como Bose y Sonos. Además, parece que la comunidad de desarrolladores y software está de acuerdo con Echo a medida que se anuncian nuevas integraciones todo el tiempo. Por ejemplo, hace aproximadamente un mes, Amazon anunció una nueva integración increíble con Spotify. Puede pedir un automóvil a su puerta (a través de las integraciones de Uber) o apagar las luces (a través de las integraciones de WeMo). Basta con mirar este gráfico del tráfico de búsqueda de Google en los últimos 12 meses para el tema “Amazon Echo”:

Seguro que no parece que el Echo sea solo un producto novedoso.

Por otro lado, otras aplicaciones de asistente de voz como Siri son más novedosas. Frecuentemente sufren interferencias de ruido de fondo y malinterpretan la pregunta del usuario. Esto se debe probablemente a que estos productos están basados en dispositivos móviles, lo que significa que un gran porcentaje de uso se realiza en lugares públicos. Mientras que el Echo se usa casi exclusivamente en entornos más privados como una oficina o un hogar, lo que limita la interferencia de ruido. A menudo descubrí que al usar Siri era mucho más rápido escribir mi consulta a mano porque el proceso de verificación de errores y corrección de la entrada era demasiado laborioso. Debido a esto, Siri para mí es mucho más una novedad, algo que puedes preguntar “¿Cuál es el significado de la vida?” y reírse con algunos amigos y luego pasar al siguiente tema.

Todo esto se basa en nuestra tecnología actual de inteligencia artificial a principios de 2016. A medida que la PNL y las redes neuronales avanzan en sus capacidades, los asistentes de voz seguramente pasarán lentamente de la categoría de “novedad” a la categoría de “herramienta útil”.

Katherine Lazarevich

¿Son realmente útiles los asistentes de voz digital, o simplemente una novedad? En su forma actual, estos ‘asistentes digitales’ son poco más que una forma alternativa de interactuar con los dispositivos que ya usamos a diario. Pueden ayudarme a ahorrar tiempo al poner una cita en mi calendario o al enviar un mensaje de texto simple, y para eso son útiles. Además de facilitar un poco mi interacción con mi teléfono, no ofrecen ningún beneficio real y difícilmente deberían llamarse asistente digital.

Sin la capacidad de derivar contexto, estos dispositivos nunca obtendrán el lugar omnipresente en nuestra sociedad por el que actualmente luchan. El consumidor estándar se aburre fácilmente. Este es un hecho triste, pero no obstante. Como producto, debe darle al consumidor algo que aún no tiene (o hacer su vida mucho más fácil) para mantener su atención. ¡Estos dispositivos no sirven para ninguno de esos propósitos! Mi vida no es más fácil al poder hablar con mi teléfono. Puede ser un poco más conveniente, pero eso es diferente a facilitarme las cosas. Y definitivamente no le dan al consumidor algo completamente diferente. No puedes hacer más con Siri de lo que puedes hacer con tus pulgares.

¿Son más populares de lo que han sido? ¡Seguro! Pero eso no significa que se convertirán en la corriente principal. Entra en el centro comercial en cualquier ciudad de América y puedes ver lo que quiero decir. Observe a las personas acerca de su vida diaria. ¿Cuántos ves usando teléfonos celulares? 50%? 75%? No importa exactamente cuántos, solo que es mucho. Ves personas enviando mensajes de texto, hablando con su madre, comparando precios con minoristas en línea, tomando fotos, etc. ¿Qué porcentaje de esas personas ves hablando con Siri? ¿Casi ninguno? ¡Lo tienes!

¿Pero por qué? Si los asistentes digitales realmente se están volviendo populares (¡qué Amazon quiere que pienses que son!), ¿Por qué no veo que se usen con más frecuencia en público? ¡Porque ese pequeño detalle de conveniencia no vale el riesgo de compartir los detalles de mi vida con todas las demás personas al alcance del oído! Si estos dispositivos pudieran interactuar con nosotros de la misma manera que lo hacen otras personas, sería más fácil sumergirse en la conversación y olvidarse de todos los posibles espías. Eso es lo que sucede cuando conversas con tu mejor amigo en el centro comercial después de todo.

¿Qué significa eso para estos dispositivos? Una de dos cosas sucederá. O habrá un gran avance en la interactividad de los sistemas de habla, o se limitarán a ser utilizados en entornos privados (o fiestas de novedad), excepto en los casos en que la conveniencia anule el deseo de privacidad. Personalmente espero que haya un gran avance en la interactividad de estas cosas. QUIERO hablar con mi teléfono y que pueda mantener una conversación. QUIERO que mi asistente digital pueda responder cualquier pregunta que tenga, no solo cómo es el clima en San Francisco. Pero en este punto, eso es un sueño imposible. Solo tendré que confiar en mis pulgares como todos los demás.

Jeremy Arnold

Ayer por la mañana, en el desayuno, mi esposa accidentalmente sacó su teléfono (tratamos de no mirar nuestros teléfonos durante las comidas o cuando estamos juntos como familia). Mi hijo de dos años y medio lo vio e inmediatamente dijo:

“¿Hablas Siri ahora?” No es bueno con los pronombres todavía. ‘Usted’ en realidad significa ‘yo’ en este caso.

Catter: “No, es hora del desayuno. No es hora del teléfono. Mamá lo está guardando”. Luego procede a guardarlo en su bolsillo.

Rypp (kiddo) salta de su silla, mete la mano en el bolsillo de su mamá y presiona el botón de inicio mientras dice: “¡Siri, muéstrame fotos de tiburones!”

Eventualmente lo convencemos de que nos devuelva el teléfono, después de que Siri haya confundido su solicitud de tiburones unas cinco veces (lo más cerca que obtiene es ‘sábanas’), coloque el teléfono en un estante alto y continúe con el desayuno.

Esta es la razón por la que no sacamos nuestros teléfonos: Rypp constantemente le pide a Siri fotos de tiburones y ballenas. Si tiene mi teléfono, que es Android, sabe preguntarle: “Ok, Google”. Para el registro, Google es muchísimo mejor para entenderlo que Siri. No tenemos planes de probar a Cortana con él. De hecho, un maravilloso amigo nuestro nos dio un regalo, y ahora habla directamente con el océano:

Realmente no importa cómo sea el mercado de estos productos hoy, y si / qué tan rápido está creciendo. Es cómo esperamos interactuar con el mundo, y eventualmente serán lo suficientemente útiles como para ser útiles para todos, y, en ese punto, serán ubicuos. Todo lo que Amazon, Apple, Google y Microsoft están haciendo es adelantar esa eventualidad.

Sizheng Chen (陈思政)

Es imposible saber cuántos Echos Amazon ha vendido, ya que la compañía no publica números de ventas. Pero está bastante claro a partir de qué datos podemos ver que el Echo es un gran éxito. [1]

¿Las ventas implican utilidad? En el caso de Echo, creo que sí. Le permite escuchar música, crear una lista de compras, administrar su calendario, obtener informes de tráfico y clima, llamar a un Uber, pedir una pizza y administrar su hogar inteligente. También se integra con IFTTT. Las críticas son abrumadoramente positivas. [2]

Algunas personas ven a Echo como menos útil que Siri, Cortana y Google Now porque no puede responder las preguntas de Jeopardy. [3]

Pero creo que les falta el punto de un asistente de voz.

El uso de la voz para la búsqueda tiene un valor limitado: como interfaz de usuario de búsqueda, la voz es lenta, vulnerable al ruido ambiental y problemática en entornos públicos. Prefiero escribir en silencio algunos caracteres, hacer que Google sugiera de manera inteligente la finalización correcta y luego obtener un resultado al instante. Si bien Apple afirma con orgullo que Siri recibe mil millones de solicitudes por semana, [4] ese no es un número tan grande considerando que han vendido más de mil millones de dispositivos iOS. [5]

Por el contrario, la voz es una excelente manera de administrar los electrodomésticos en el hogar, donde no le preocupa estar en un lugar público, o en un automóvil donde el uso de manos libres es un problema de seguridad. Y Echo ha encontrado un conjunto de casos de uso que ofrecen una comodidad real a sus usuarios. Si bien Amazon no ha publicado números, parece seguro asumir que los propietarios de Echo están usando sus dispositivos más de una vez por semana.

¿Hay un avance que cambie la vida aquí? No lo creo, al menos no todavía. Pero sí creo que Echo está aclimatando a las personas a usar la voz como interfaz en los entornos cotidianos, lo que nos facilita a un mundo donde hablar con nuestras máquinas es normal y tal vez incluso una expectativa.

Pero la voz siempre será lenta, sujeta al ruido ambiental e incompatible con accesos directos como escribir a máquina. No estoy convencido de que sea el punto final para las interfaces de usuario, sin importar lo que la ciencia ficción nos diga. Quizás sea un paso en el camino para dirigir las interfaces neuronales. Cuando lleguen esas interfaces, ¡solo espero que seamos humanos controlando las máquinas y no al revés!

Notas al pie

[1] Amazon está sacudiendo completamente otro mercado

[2] Amazon Echo: siempre listo, conectado y rápido.

[3] Amazon Echo Review: Talking Helper Alexa no es rival para Siri

[4] Siri recibe mil millones de solicitudes por semana, casi 1 millón de ubicaciones para aceptar Apple Pay: Apple

[5] Apple anuncia mil millones de dispositivos iOS vendidos

Jeremy Arnold

More Interesting

¿Cuál es la mejor manera de usar la tecnología para operar remotamente su propiedad AirBnB?

¿Los vikingos tenían alguna tecnología que superara a sus enemigos (aparte de sus naves)?

¿Cuál es la tecnología detrás de un servicio típico de notificaciones push?

¿Hubo algo nuevo en el tutorial de aprendizaje profundo en NIPS 2015 de Hinton, Bengio y LeCunn?