(Descargo de responsabilidad: nunca he trabajado en el reconocimiento de voz o el procesamiento del lenguaje natural. Mi respuesta se basa en una visión de muy alto nivel de estos temas)
Creo que el objetivo principal de cualquier asistente personal (como Siri) es el reconocimiento de voz. El discurso reconocido generalmente se convierte en forma escrita (transcripción). Los modelos ocultos de Markov se usan generalmente en sistemas modernos basados en el reconocimiento de voz. Sin embargo, las personas también han utilizado (con cierto grado de éxito) la red neuronal artificial.
Una vez que un asistente virtual reconoce lo que el usuario está hablando, la siguiente tarea es el procesamiento del lenguaje natural, donde el asistente debe realizar tareas de etiquetado de funciones semánticas y de extracción de información, como el reconocimiento de entidades con nombre. Estas tareas ayudan al asistente a identificar la operación y el operando solicitados. Esto también lo ayuda a identificar lo que una persona está buscando (como el automóvil Jaguar o el gato Jaguar). Para estas tareas, generalmente se utiliza el modelo oculto de Markov o el campo aleatorio condicional. A veces, incluso se utilizan técnicas clásicas como el clasificador Naive Bayes o la máquina de vectores de soporte.
- ¿Qué se necesita para crear un chatbot?
- ¿Qué arquitectura de redes neuronales funcionará mejor para un problema de anotación de imagen y por qué?
- Si una IA se volviera consciente de sí misma, ¿tendría un ego?
- ¿Qué es la prueba de Turing?
- Durante Singularity, cuando la inteligencia artificial supera la nuestra, ¿qué ocupaciones humanas y conjuntos de habilidades serán altamente valorados?
Una vez que se conoce la operación, se realiza la tarea y el asistente comunicará el resultado al usuario.
Para el seguimiento de la actividad, creo que la herramienta más popular para usar es un nuevo modelo de Hidden Markov.
Gracias por A2A
(PD: Siri es una rama de CALO – SRI International)