Los asistentes de voz consisten en prácticamente el mismo conjunto de tecnologías. Entonces, para crear un asistente personal como Siri , necesitará:
- Motor de voz a texto (STT) . El motor convierte la voz del usuario en texto. La voz puede ser un archivo de audio o un flujo de voz del usuario.
- Motor de texto a voz (TTS) . Convierte texto en voz. Eso se vuelve particularmente útil al conducir o cocinar, por lo que el usuario no tiene que parar lo que está haciendo para interactuar con el asistente de voz. Además, juega un papel importante en la humanización del asistente.
- Etiquetado (Inteligencia) . El etiquetado ayuda a un asistente de voz a comprender lo que un usuario quiere. Por ejemplo, el usuario podría preguntar: “¿Necesitaré un paraguas esta noche?”. Luego, el motor de etiquetado puede etiquetar la información con el clima o la etiqueta de información del calendario.
- Motor de reducción de ruido . Casi nunca hay un ambiente tranquilo y perfecto para las solicitudes de voz, siempre habrá un automóvil en movimiento o un perro ladrando. Por lo tanto, el motor de reducción de ruido no solo elimina el ruido blanco, sino que también ayuda a su asistente a comprenderlo.
- Biometría de voz . Es una forma de autenticación, por lo que su asistente podría reconocer su voz y responder solo a sus comandos. Siri realmente lo tiene, puedes enseñar cómo dices las palabras “Hola Siri”.
- Reconocimiento de voz . Componente de aprendizaje automático que impulsa todas las aplicaciones móviles de asistente personal. Esta tecnología le permite al asistente entender lo que está diciendo, básicamente le da sentido a sus palabras.
- Motor de compresión de voz . Este motor es particularmente útil porque proporciona a los usuarios una salida rápida. Comprime la voz del usuario para que se envíe al servidor más rápido. Puede usar el algoritmo G711, que no pierde los datos, para este propósito.
- Interfaz de usuario . La interfaz de usuario para asistentes de voz consta de dos partes: la voz y la llamada. La parte de voz es lo que el usuario escucha como resultado de su pregunta y las llamadas son lo que ve en la pantalla del móvil.
Descubra cómo crear una aplicación como Siri: AI en aplicaciones móviles: cómo crear una aplicación como Siri
- Cuál debería ser mi próximo paso, después de cubrir las estadísticas básicas de las estadísticas principales, un curso básico de análisis de datos (preparación de datos, exploración, clasificación, minería de reglas de asociación, agrupación, regresión) y un proyecto en un conjunto de datos SSLC (puede encontrarlo en mi único blog en Quora) usando R?
- ¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?
- ¿Qué se sabe sobre la detección de incertidumbre o vacilación en el texto en lenguaje natural (no en el habla)?
- ¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?
- ¿Qué hace el -1 en la siguiente línea del código TensorFlow x_image = tf.reshape (x, [-1,28,28,1])?