¿Qué tan cerca estamos de conseguir asistentes virtuales como Samantha en ella?

Samantha en ella fue retratada como una IA fuerte y general [1]. Entonces no responderé cuándo tendremos eso. Como ya se ha abordado en Quora mucho [2] [3] (las respuestas de las sugerencias varían de unos pocos meses a partir de ahora, hasta nunca ).

En cambio, abordaré algunos de los otros ingredientes de la receta.

Inteligencia emocional

Hay muchos artículos académicos [4] sobre la detección de emociones por voz y video de humanos, pero no está listo para la producción, y los ejemplos que encuentras en línea tienden a ser tan inexactos que no se pueden usar o no son confiables.

Reconocimiento de voz

En 3 años, la precisión del reconocimiento de voz ha pasado de una tasa de error del 23% al 8%. [5] Creo que tendremos rendimientos decrecientes a partir de ahora, incluso los humanos tienen una tasa de error de reconocimiento diferente de cero cuando hablamos con otros humanos. Pero en entornos silenciosos y controlados con una polarización adecuada (como en el hogar) probablemente alcanzaremos un lugar cercano a una tasa de error del 2–3%. Si recuerdo bien, Samantha nunca tuvo ningún error de reconocimiento en Ella, incluso en entornos ruidosos y abarrotados con muchas otras voces humanas.

Síntesis de voz

En la película se grabó todo el diálogo, por lo que sonó muy natural y suave. Si desea un VA que pueda decir algo en cualquier momento, no puede grabar todo con anticipación con un actor de voz. Proyectos como WaveNet están mejorando para sintetizar el habla humana, pero aún no pueden acercarse a un humano en prosodia natural.

Duración de la batería

Incluso el mejor teléfono de mano tiene una batería que dura menos de 24 horas, de uso activo, una IA como Samantha no funcionaría localmente (y claramente no en la película), por lo que el dispositivo tendría que transmitir audio, y en muchos casos video y ubicación. Theodore, el líder humano, usa un auricular inalámbrico constantemente durante la mayor parte de la película. El estado actual del arte dura 5 horas.

¿Así que cuando? No por años, 15 si tenemos suerte , pero incluso si parece que el sistema retratado en Ella el artificio se romperá fácilmente, todavía alcanzarás los límites de la comprensión del sistema o la capacidad de comprenderte con bastante facilidad.

Notas al pie

[1] Inteligencia artificial general

[2] Inteligencia general artificial

[3] ¿Se puede lograr una IA fuerte?

[4] https://scholar.google.com/schol…

[5] La respuesta de Jared Zimmerman a ¿Cómo se compara Google Speech API con (1) la opción de reconocimiento de voz en la Búsqueda de Google (¿la misma?) Y (2) el micrófono de reconocimiento de voz en el teclado iOS?