¿Qué algoritmos / tecnologías se usaron para hacer Siri?

Los asistentes de voz consisten en prácticamente el mismo conjunto de tecnologías. Entonces, para crear un asistente personal como Siri , necesitará:

  • Motor de voz a texto (STT) . El motor convierte la voz del usuario en texto. La voz puede ser un archivo de audio o un flujo de voz del usuario.
  • Motor de texto a voz (TTS) . Convierte texto en voz. Eso se vuelve particularmente útil al conducir o cocinar, por lo que el usuario no tiene que parar lo que está haciendo para interactuar con el asistente de voz. Además, juega un papel importante en la humanización del asistente.
  • Etiquetado (Inteligencia) . El etiquetado ayuda a un asistente de voz a comprender lo que un usuario quiere. Por ejemplo, el usuario podría preguntar: “¿Necesitaré un paraguas esta noche?”. Luego, el motor de etiquetado puede etiquetar la información con el clima o la etiqueta de información del calendario.
  • Motor de reducción de ruido . Casi nunca hay un ambiente tranquilo y perfecto para las solicitudes de voz, siempre habrá un automóvil en movimiento o un perro ladrando. Por lo tanto, el motor de reducción de ruido no solo elimina el ruido blanco, sino que también ayuda a su asistente a comprenderlo.
  • Biometría de voz . Es una forma de autenticación, por lo que su asistente podría reconocer su voz y responder solo a sus comandos. Siri realmente lo tiene, puedes enseñar cómo dices las palabras “Hola Siri”.
  • Reconocimiento de voz . Componente de aprendizaje automático que impulsa todas las aplicaciones móviles de asistente personal. Esta tecnología le permite al asistente entender lo que está diciendo, básicamente le da sentido a sus palabras.
  • Motor de compresión de voz . Este motor es particularmente útil porque proporciona a los usuarios una salida rápida. Comprime la voz del usuario para que se envíe al servidor más rápido. Puede usar el algoritmo G711, que no pierde los datos, para este propósito.
  • Interfaz de usuario . La interfaz de usuario para asistentes de voz consta de dos partes: la voz y la llamada. La parte de voz es lo que el usuario escucha como resultado de su pregunta y las llamadas son lo que ve en la pantalla del móvil.

Descubra cómo crear una aplicación como Siri: AI en aplicaciones móviles: cómo crear una aplicación como Siri

Esto es como una pregunta frecuente … Por favor, vea mis otras respuestas de Quora sobre Siri:

  • ¿Alguien está trabajando en una versión de código abierto de Siri?
  • ¿Qué temas sobre Quora están relacionados con la tecnología detrás de Apple Siri?
  • ¿Qué tecnología conversacional impulsa a los asistentes de inteligencia artificial de hoy, como Siri y Cortana?
  • ¿En qué idioma está escrito Siri?
  • ¿Cómo creo algo como Siri o JARVIS?
  • ¿Cuáles son las fuentes de siri?
  • ¿Cuáles son los requisitos técnicos para construir un sistema similar a siri que no sea el desarrollo de aplicaciones móviles?
  • ¿Existe una aplicación similar a la aplicación Siri para el iPhone 4?
  • ¿Qué pila de software usa Siri?

More Interesting

¿Hay alguna diferencia entre los codificadores automáticos y el codificador-decodificador en el aprendizaje profundo?

¿Cuál es la diferencia entre un enfoque de bandido multi-armado y el control estocástico?

¿Cómo funciona el refuerzo con los algoritmos de clasificación del árbol de decisión?

¿Qué función podría usar en R para encontrar los n valores más grandes de un vector?

¿Hay algún trabajo interesante en la clasificación utilizando la regresión logística bayesiana?

¿Cuáles son algunas aplicaciones de los modelos gráficos probabilísticos?

¿Cuál es la desventaja de usar ADVI?

¿Por qué el aprendizaje automático, las redes neuronales y otros enfoques de IA, por ejemplo, no se usan más ampliamente en las predicciones del mercado de valores?

¿Hay algún curso sobre blockchain, Python o aprendizaje automático durante un máximo de 6 meses en el extranjero que también pueda conseguirme un trabajo allí?

¿Cómo debo elegir una función de activación adecuada para la red neuronal?

¿Cómo es el curso de aprendizaje automático NPTEL?

¿Cuál es la razón para mapear datos de dos idiomas diferentes en un espacio de incrustación de palabras común y no usar dictonarios y asignarle el idioma b a los vectores del idioma a para entrenar un modelo de manera multilingüe?

¿Puede el aprendizaje automático ayudarnos a comprender el cerebro humano?

¿Cómo funcionan los algoritmos de aprendizaje automático de Google?

¿Qué significa que una modelo se sobreajuste?