¿Apple tiene patentes que pueden mostrar el futuro de Siri? La tecnología cambia la vida futura

Sí. Y es realmente bastante abarcativo, la solicitud de patente “Comandos contextuales de voz”.

Una hoja de ruta para Siri

El 9 de diciembre de 2010, Apple presentó una solicitud de patente llamada Comandos de voz contextuales con los científicos / ingenieros de Apple, Marcel Van Os, Gregory Novick y Scott Hertz, que figuran como los inventores. Parece bastante probable que esta patente se otorgue con el historial previo de patentes que Apple presenta:

Resumen :
“Entre otras cosas, se divulgan técnicas y sistemas para implementar comandos de voz contextuales. En un dispositivo, se muestra un elemento de datos en un primer contexto. En el dispositivo, se recibe una entrada física que selecciona el elemento de datos mostrado en el primer contexto. “el dispositivo, se recibe una entrada de voz que relaciona el elemento de datos seleccionado con una operación en un segundo contexto. La operación se realiza en el elemento de datos seleccionado en el segundo contexto”.

http://appft.uspto.gov/netacgi/n…

La aplicación Contextual Voice Command es realmente el mapa de ruta que esbozará el viaje que Apple puede tomar con Siri. Aunque escribí un poco sobre esto (en privado) y la compra de Siri Inc. en diciembre de 2010 para alertar a las personas que aconsejo, con una perspectiva de 20/20, ahora podemos ver los pasos que conducen al producto que Apple llama Siri hoy.

Advertencia de sobrecarga de datos. Hay bastante en esta patente. Acabo de mencionarlo en esta publicación. Para evitar las cosas que cubre hoy en Siri y pasar al futuro potencial de Siri, salte al titular “Futuro potencial de Siri”. Aquí están las viñetas para el futuro:

Voz cortar y pegar
“Siri, toma una foto”, hablando con la cámara
Modelos de aprendizaje avanzado y complejo
Enseñar a Siri a comprender los movimientos y otros datos del sensor
Siri disparando macros poderosas
Siri usando la navegación por voz de maneras únicas

Pido disculpas por el tamaño de esta publicación, pero siento que hay una cantidad asombrosa de información importante.

Notas del pasado

Las patentes no son productos . Es importante comprender que, en la mayoría de los casos, la gran mayoría de las patentes nunca se convierten en un producto. Sin embargo, en el caso de Apple, tienen una proporción mucho mayor de patentes de implementación. Es importante comprender que esta solicitud de patente es una especie de “nota del pasado”, por la cual varios casos de uso prescribieron y predijeron que ahora están teniendo lugar.

El lenguaje de una solicitud de patente es vago y exigente al mismo tiempo, maximizando la mejor cobertura para la patente. Por lo tanto, nos enfrentamos a un “discurso de patente” que puede ser difícil de digerir. En la mayoría de los casos, la aplicación Contextual Voice Command es bastante más fácil de entender ahora que ahora se lanzó la versión de Siri de Apple. Sin embargo, es una lectura muy larga dividida por citas de identificadores de párrafo. Hay mucho más que podría cubrir, pero en esta publicación limitaré el alcance a algunos puntos importantes.

La aplicación de comando de voz contextual es una gran colección de casos de uso para Siri. Esto realmente cubre casi todo y el “fregadero de la cocina” cuando se trata de la forma en que los comandos de voz pueden estructurar dinámicamente las opciones contextuales y los menús en tiempo real. Lo que realmente hace a Siri muy poderoso es el motor de contexto, la capacidad de determinar, por ejemplo, un comando de voz que dice “Responder mensaje de texto” está relacionado con el mensaje de texto que Siri acaba de notificarle. En la patente encontramos partes del modelo conceptual que Siri usa y quizás ya se da por sentado:

“El modo de comando de voz contextual permite al usuario emitir un comando y realizar la acción en segundo plano sin que el usuario abandone el contexto de la aplicación utilizada actualmente. Además, muchas más operaciones están a disposición del usuario sin requerir espacio en pantalla para ajustar más botones o agregar menús largos para encontrar tales opciones “.

La primera Descripción detallada de la patente presenta el caso de Siri que vemos hoy. Presenta un iPhone idealizado que puede convertirse en un dispositivo de entrada para una interfaz de usuario controlada por voz:

“Las Figs. 1a y 1b muestran vistas frontal e inferior de un dispositivo 102 para realizar comandos de voz contextuales para operar el dispositivo. El dispositivo de procesamiento de datos 102 puede ser cualquier dispositivo, tal como un dispositivo móvil, con la capacidad de recibir entradas físicas y de voz y realizar operaciones en una o más aplicaciones o contextos basados en las entradas físicas y de voz recibidas.

El dispositivo de procesamiento de datos 102 incluye tecnología de comunicación (por ejemplo, tecnología inalámbrica) para compartir información con otros dispositivos. El dispositivo de procesamiento de datos 102 puede incluir una variedad de unidades de interfaz de usuario integradas o puede acoplarse a unidades de interfaz de usuario a través de uno o más puertos de comunicación o enlaces de datos del dispositivo.

Algunos ejemplos de unidades de interfaz de usuario incluyen, entre otros, una unidad de entrada de voz, como un micrófono 106. Algunos ejemplos de unidades de interfaz de usuario incluyen, entre otros, unidades de entrada física, como un teclado, un mouse, una pista bola, un dial o rueda giratoria, un panel táctil o una pantalla táctil. Algunos ejemplos de las unidades de interfaz de usuario incluyen, entre otros, sensores de movimiento, como un acelerómetro, un magnetómetro o un giroscopio.

Cualquiera de estas unidades de interfaz de usuario puede implementarse como una unidad externa que se comunica con el dispositivo de procesamiento de datos 102 para proporcionar la entrada del usuario utilizando una tecnología de comunicación por cable o inalámbrica. Los ejemplos de tecnología de comunicación por cable incluyen la interfaz Universal Serial Bus (USB), la interfaz FireWire, etc. Los ejemplos de tecnología de comunicación inalámbrica incluyen Bluetooth, Wi-Fi, WiMax, infrarrojos, etc. A través de estas unidades de interfaz de usuario, el dispositivo de procesamiento de datos 102 puede recibir entradas físicas o de voz del usuario “.

Luego, la patente continúa expresando cómo el entorno contextual es un elemento clave:

“Los comandos de voz divulgados son contextuales en que las entradas, además de la voz, indican diferentes niveles o tipos de contexto para los comandos que se consideran. Las entradas contextuales consideradas pueden incluir la actividad particular que se realiza en un momento particular, una parte particular de la actividad seleccionada o los comandos de voz en dicho contexto.

Por ejemplo, los comandos de voz contextuales se pueden implementar en el contexto de la actividad que un usuario realiza en un dispositivo de procesamiento de datos, como el uso de una aplicación en particular. Por ejemplo, la fig. 1a muestra elementos de datos, tales como iconos visualizados en la unidad de visualización 108 del dispositivo de procesamiento de datos 102.

Cada icono representa una aplicación correspondiente disponible para realizarse en el dispositivo de procesamiento de datos 102. Algunos ejemplos de los iconos disponibles y las aplicaciones asociadas incluyen, entre otros: un icono de aplicación de teléfono 110a, un icono de aplicación de correo electrónico 110b, un icono de aplicación de navegador web 110c, un ícono de aplicación de reproductor de música 110d, un ícono de aplicación de reproductor multimedia 110e, un ícono de aplicación de descarga de música 110f, un ícono de aplicación de procesamiento de imágenes 110g, un ícono de aplicación de fotografía (por ejemplo, GPS, posicionamiento basado en Wi-Fi, triangulación celular) 110h, un icono de aplicación de contactos 110i, un icono de aplicación de servicio de mensajes cortos (SMS) 110j, un icono de aplicación de videojuego 110k y un icono de aplicación de procesamiento de texto 110l.

Además, las aplicaciones disponibles se pueden presentar al usuario utilizando elementos de datos audibles, como sonidos grabados asociados con las aplicaciones disponibles. Los sonidos grabados pueden ser habla reconocible por el usuario, como los nombres de las aplicaciones o sonidos simples, como un pitido, un tono, un timbre, etc.
…
Se puede proporcionar opcionalmente una indicación visual y / o audible adicional para incluir una lista de comandos de voz normales y contextuales disponibles para el elemento de interés seleccionado (640). Por ejemplo, una barra de estado (por ejemplo, la barra de estado 105 en las figuras 2b, 3a, 3b y 4) se puede usar para proporcionar una indicación visual de los comandos de voz contextuales disponibles.

La lista de comandos disponibles puede incluir comandos no contextuales, como “llamar a la persona”, “leer correo electrónico”, “próxima reunión”, etc., y comandos contextuales, como “enviar esto a …”, “marcar este , “” recuérdame esto en 2 horas “,” borra esto “,” busca esto en la Web “, etc. Se reconoce que los comandos de voz contextuales están en el contexto de” esto “.

El término “este” o “elemento” o “elemento actual” o “selección” o cualquier identificador similar para el elemento de interés puede relacionarse con toda la pantalla mostrada, la pantalla activa seleccionada, o cualquier elemento en cualquier pantalla, o cualquier entrada física, como botones de hardware.

El elemento de interés puede ser un elemento de datos que se muestra en una pantalla si el usuario tocó o nombró el elemento. El elemento de interés puede ser un elemento de datos específico de la aplicación (por ejemplo, “lista clara”). Además, el elemento de interés puede ser una unidad presentada en la pantalla (por ejemplo, “este mensaje de correo”) “.

Futuro potencial de Siri

Podemos ver el futuro de esta tecnología utilizando para hacer cosas más complicadas. Algunos ejemplos parecen obvios, sin embargo, algunos son bastante sorprendentes. Señalaré cómo la patente se aplica a Siri 1.0, cómo podemos ver el camino futuro que Apple ha planeado.
Voz cortar y pegar

Al igual que el retraso de cortar y pegar en los primeros modelos de iPhone, podemos ver que Apple tiene un camino para cortar y pegar por voz. En concepto, este puede ser un proceso muy poderoso:

“Por ejemplo, usando la entrada táctil y / o de voz, el usuario puede hacer una selección en cualquier pantalla, como seleccionar un bloque de texto en un contexto de aplicación de procesamiento de texto. Para realizar un cruce de contexto para el bloque de texto seleccionado, el usuario puede simplemente pronunciar la frase de activación predeterminada, como “enviar esto por correo electrónico a [correo electrónico protegido] ” o “mover esto al navegador web” para actuar sobre el bloque de texto seleccionado en otro contexto.

A diferencia de dicho comando de voz contextual, una interfaz de usuario táctil requiere que el usuario copie y guarde el bloque de texto seleccionado, abra la aplicación de correo electrónico, redacte un nuevo correo electrónico, busque o escriba la dirección de correo electrónico, pegue el bloque de texto guardado en el correo electrónico y presione el botón enviar. ”

“Siri, toma una foto”, hablando con la cámara

La capacidad de ir al modo de cámara, tomar una foto y luego modificar la imagen, por ejemplo, la eliminación de “ojos rojos”. Esta puede ser una característica muy poderosa si se implementa correctamente:

“… la imagen 107 se puede modificar usando una aplicación de procesamiento de imágenes al pronunciar la frase de activación predeterminada, ” modificar esta imagen “. En respuesta al comando de voz contextual, “modifique esto”, el módulo de comando de voz contextual busca una lista de aplicaciones disponibles que pueden modificar la imagen seleccionada.

Cuando hay más de una aplicación disponible, la barra de estado 105 se puede usar para mostrar una lista de las aplicaciones disponibles. Además, las aplicaciones disponibles se pueden reproducir como una lista audible. En respuesta a la lista visual o audible de aplicaciones, el usuario puede pronunciar el nombre de la aplicación deseada para activar esa aplicación y modificar la imagen seleccionada “.

Siri no se detendría allí, una vez que esté satisfecho con la imagen, puede pedirle a Siri que envíe un mensaje de texto con la imagen o que la envíe por correo electrónico. La patente cubre esta posibilidad:

“Las funciones u operaciones disponibles para el elemento seleccionado o elemento de datos de interés pueden incluir las funciones asociadas con la aplicación o contexto activo. Para un elemento de correo electrónico, como una imagen 107 adjunta a un correo electrónico (véanse las figuras 3a y 3b), están disponibles las funciones u operaciones de la aplicación de correo electrónico.
La imagen 382 se puede reenviar a otra dirección de correo electrónico, por ejemplo.

Un comando de ejemplo puede ser “enviar esta imagen por correo electrónico a [correo electrónico protegido] ”

Modelos de aprendizaje avanzado y complejo

Una de las características más poderosas de Siri será la capacidad de aprender cosas importantes con el tiempo. De hecho, por el hecho virtual de que a partir de hoy (10/18/2011) hay alrededor de 4 millones de usuarios de Siri que de manera muy significativa están capacitando al sistema en lo que es más relevante. Con el tiempo, estos sistemas se volverán bastante complejos. Apple predice que habrá una serie de modelos que usarán:

” HIGO. 8a es un diagrama de flujo que muestra un proceso de ejemplo 800 para implementar una mejor suposición o modelo de aprendizaje. El mejor supuesto o modelo de aprendizaje utiliza el historial de uso o preferencia del usuario para hacer el mejor supuesto. Los ejemplos de modelos de aprendizaje pueden incluir, entre otros: modelos de aprendizaje automático, como máquinas de vectores de soporte (SVM), un modelo de inferencia inductiva, aprendizaje conceptual, aprendizaje de árbol de decisión, aprendizaje bayesiano y otros.

Se puede utilizar un modelo de aprendizaje automático para desarrollar un proceso que enseñe al dispositivo de procesamiento de datos a mejorar su rendimiento en función de los datos acumulados recibidos a través de una unidad de entrada o almacenados en una base de datos. Dichos modelos de aprendizaje automático pueden usarse para producir automáticamente un resultado deseado basado en reglas y patrones diseñados a partir de los datos acumulados. El dispositivo recibe la entrada del usuario que indica el elemento de interés deseado y el comando de voz contextual (810). El módulo de comando de voz contextual verifica una base de conocimiento para identificar la mejor suposición o la opción más probable de lo que el usuario pretendía (820).
…
La base de conocimiento 806 puede incluir un historial de uso 816 relacionado con el comando de voz contextual solicitado. Por ejemplo, para el comando de voz contextual recibido, “llamar a John”, la base de conocimiento puede incluir una lista de personas llamadas John y la cantidad de veces que se llamó a cada John. En el ejemplo de historial de uso 816 mostrado en la FIG. 8b, John Doe fue llamado la mayoría de las veces (por ejemplo, 31 veces).

Por lo tanto, el módulo de comando de voz contextual 510m identifica a John Doe como la mejor suposición de la intención del usuario.

En base a esta identificación, el módulo de comando de voz contextual 510m emite a través de una unidad de salida 540 (por ejemplo, la barra de estado 105 de la unidad de visualización 108) un mensaje que pregunta al usuario si se debe llamar a John Doe. Además, el módulo de comando de voz contextual puede presentar una indicación audible del mismo mensaje. En respuesta a esta indicación visual y / o audible, el usuario puede confirmar o corregir la suposición. ”

Enseñar a Siri a comprender los movimientos y otros datos del sensor

La patente entra en un caso de uso en el que un usuario podría entrenar a Siri para que comprenda ciertos movimientos y gestos del dispositivo para desencadenar eventos:

“Para construir la base de conocimiento, el usuario puede enseñarle al dispositivo a recordar ciertos comandos. Por ejemplo, con la opción de comando de voz contextual activa, el usuario puede rotar un objeto 45 grados en una aplicación de procesamiento de imágenes. Inicialmente, el acto de girar la imagen se puede realizar utilizando un dispositivo de entrada posicional.

Luego, el usuario puede seleccionar este objeto girado e identificarlo diciendo “una imagen en un ángulo de 45 grados” para enseñar el dispositivo. La próxima vez que el usuario quiera rotar el objeto en 45 grados, simplemente puede decir “un objeto rotado en 45 grados”.

Siri disparando macros poderosas

La capacidad de programar un Marco para realizar una serie de tareas vinculadas podría convertirse en una de las características más poderosas de Siri. Desde una perspectiva simple, uno podría elegir de un menú de tareas. En un modo avanzado, los detalles profundos se pueden modificar y se pueden crear nuevas tareas:

“Se pueden implementar macros para enseñar el dispositivo de procesamiento de datos. Por ejemplo, las macros se pueden generar combinando múltiples operaciones en un comando de voz contextual. A continuación se describe un proceso para generar una macro de ejemplo: El dispositivo de procesamiento de datos ingresa al modo de comando de voz contextual. El módulo de comando de voz contextual recibe un comando de voz contextual que indica la generación de macro, tal como “aprender esto”.

El módulo de comando de voz contextual recibe la selección del usuario de un elemento de datos de interés y comandos de voz contextuales para realizar múltiples operaciones, tales como “usar en una nota”, “recordarme una nota en 2 horas”, “enviar una nota como correo electrónico a grupo de contacto, “etc. [0063] El módulo de comando de voz contextual recibe un comando de voz contextual que indica el final de la generación de macro, tal como” aprendizaje realizado “. El módulo de comando de voz contextual solicita al usuario que nombre la macro generada. El módulo de comando de voz contextual recibe la entrada del usuario que indica un nombre para la macro generada, tal como “Realizar operaciones”. El módulo de comando de voz contextual confirma la asociación del nombre recibido con la macro generada. [0067] Fin de la macrogeneración.
…
Por lo tanto, una macro se puede usar para asociar una secuencia de operaciones con un nombre descriptivo (por ejemplo, “Realizar operaciones”) y enseñar al dispositivo de procesamiento de datos a realizar la secuencia de operaciones en respuesta a la pronunciación del nombre por parte del usuario. La próxima vez que el usuario desee realizar la misma secuencia de operaciones, el usuario puede indicarle al dispositivo de procesamiento de datos que “realice operaciones” en un elemento de datos seleccionado de interés. El dispositivo de procesamiento de datos puede procesar este comando de voz contextual aprendido para realizar la secuencia completa de operaciones en el elemento de datos seleccionado de interés. ”

Siri usando la navegación por voz de maneras únicas

La navegación basada en voz parece ser una extensión muy lógica para Siri. La patente sugiere un caso de uso único que podría dar navegaciones mucho más interesantes. Siri superará cualquier sistema de navegación disponible, un ejemplo es que en la ruta podría preguntar “Siri, ¿cuál es la estatua que estoy mirando?”. La patente realmente amplía el concepto de navegación:

“En el contexto de navegación, la orientación o posición del teléfono se puede usar para personalizar los comandos de voz contextuales para proporcionar instrucciones al usuario. La dirección se puede proporcionar mediante GPS y una brújula.

Por ejemplo, el usuario puede pronunciar la frase de activación predeterminada, como “¿en qué dirección debo caminar?” para recibir la dirección adecuada del dispositivo. El controlador de comando de voz contextual puede usar la posición del dispositivo basada en GPS y brújula para proporcionar una dirección audible adecuada al usuario, como “girar a la izquierda”, “caminar derecho”, etc. Además, el usuario puede usar los comandos de voz contextuales para obtener información direccional del dispositivo.

Por ejemplo, el usuario puede hablar el término de activación predeterminado, como “¿a qué apunta este dispositivo” o “qué estoy mirando” o “¿Qué hay a mi izquierda?” o “¿Qué hay a mi derecha?” o “lo que está delante de mí” o “lo que está por delante” o “lo que está detrás de mí” o “qué camino al destino” o “qué tan lejos está el destino”, etc.

En estos ejemplos, la orientación del dispositivo puede ser un elemento contextual. Estos tipos de frases de activación pueden predeterminarse para que el dispositivo active las aplicaciones relacionadas con la navegación apropiadas.

Para ciertas situaciones, como el contexto del automóvil, en el que el usuario no puede proporcionar información a través de un dispositivo de entrada posicional, se puede personalizar un mecanismo de retroalimentación audible para interacción intensiva de voz. Por ejemplo, el controlador de comando de voz contextual puede simplificar la respuesta audible enviada desde el dispositivo en función del contexto, como el contexto de conducción.

Por ejemplo, en lugar del controlador de comando de voz contextual que proporciona salidas audibles, como “Tenemos varios nombres, ¿cuál quieres?” Para proporcionar una lista de opciones, la respuesta audible del dispositivo se puede reducir a escenarios simples de Sí-No. Por ejemplo, el dispositivo puede preguntar: “¿Quieres esto? Sí o no”. Tal simple respuesta Sí-No es más fácil de usar para el usuario al conducir, por ejemplo. ”

Siri y el futuro

Hay partes más notables de esta patente y, una vez otorgada, posicionará a Apple como la más dominante desde la perspectiva de la propiedad intelectual. También hay una serie de otras patentes que afectan directa e indirectamente a lo que Siri está haciendo actualmente y lo que puede hacer en el futuro.

Hoy Siri está en Beta. Las patentes no son productos y gran parte de esto está abierto a la especulación. Sin embargo, con esta patente podemos estar viendo parte de los planes futuros que Apple tiene para Siri y sus hermanos. Si este es el caso, las próximas versiones pueden ser más sorprendentes que la versión actual.