¿Qué algoritmos / tecnologías se usaron para hacer Siri? La tecnología cambia la vida futura

¿Qué algoritmos / tecnologías se usaron para hacer Siri?

Los asistentes de voz consisten en prácticamente el mismo conjunto de tecnologías. Entonces, para crear un asistente personal como Siri , necesitará:

Motor de voz a texto (STT) . El motor convierte la voz del usuario en texto. La voz puede ser un archivo de audio o un flujo de voz del usuario.
Motor de texto a voz (TTS) . Convierte texto en voz. Eso se vuelve particularmente útil al conducir o cocinar, por lo que el usuario no tiene que parar lo que está haciendo para interactuar con el asistente de voz. Además, juega un papel importante en la humanización del asistente.
Etiquetado (Inteligencia) . El etiquetado ayuda a un asistente de voz a comprender lo que un usuario quiere. Por ejemplo, el usuario podría preguntar: “¿Necesitaré un paraguas esta noche?”. Luego, el motor de etiquetado puede etiquetar la información con el clima o la etiqueta de información del calendario.
Motor de reducción de ruido . Casi nunca hay un ambiente tranquilo y perfecto para las solicitudes de voz, siempre habrá un automóvil en movimiento o un perro ladrando. Por lo tanto, el motor de reducción de ruido no solo elimina el ruido blanco, sino que también ayuda a su asistente a comprenderlo.
Biometría de voz . Es una forma de autenticación, por lo que su asistente podría reconocer su voz y responder solo a sus comandos. Siri realmente lo tiene, puedes enseñar cómo dices las palabras “Hola Siri”.
Reconocimiento de voz . Componente de aprendizaje automático que impulsa todas las aplicaciones móviles de asistente personal. Esta tecnología le permite al asistente entender lo que está diciendo, básicamente le da sentido a sus palabras.
Motor de compresión de voz . Este motor es particularmente útil porque proporciona a los usuarios una salida rápida. Comprime la voz del usuario para que se envíe al servidor más rápido. Puede usar el algoritmo G711, que no pierde los datos, para este propósito.
Interfaz de usuario . La interfaz de usuario para asistentes de voz consta de dos partes: la voz y la llamada. La parte de voz es lo que el usuario escucha como resultado de su pregunta y las llamadas son lo que ve en la pantalla del móvil.

Descubra cómo crear una aplicación como Siri: AI en aplicaciones móviles: cómo crear una aplicación como Siri