La transcripción no es un problema resuelto. Las tasas de error son significativas cuando no se encuentra en un entorno ideal o cuando su habla está influenciada por acentos o condiciones fisiológicas (acaba de despertarse). La transcripción propensa a errores también requiere más esfuerzo para corregir que simplemente escribir en una interfaz.
El campo ha estado en el ciclo de exageración todos los años desde mediados de los 90, y siempre ha estado a unos 5 años de distancia. El perfil se elevó con los teléfonos inteligentes específicamente porque los teléfonos inteligentes tienen los anchos de banda de transmisión de información de persona a máquina más malos de la mayoría de las plataformas informáticas (los relojes inteligentes / dispositivos portátiles son peores). He sido dueño de Glass durante dos años y esos insectores no han implementado ninguna solución utilizable para el problema del cóctel.
En la actualidad, casi todos usan un enfoque basado en la nube para este problema, que en el papel es excelente, pero la experiencia de usuario no es tan eficiente como la entrada mecánica. Espera unos segundos o dos y nunca está seguro de si el resultado será correcto. . En mi experiencia, obtiene todas las palabras poco comunes (especialmente palabras técnicas, ¿adivina en qué piensan generalmente los principales demográficos de los primeros usuarios?) Incorrecta. Si tengo que repetirme 5 veces esforzándome en adaptar mi voz para que la máquina entienda lo que estoy diciendo, realmente no tengo nada que decir que se resuelva la transcripción del habla.
- ¿Por qué ocurren los avances tecnológicos?
- ¿Cómo y cuándo se separó tan rápido la tecnología del ejército de los EE. UU. Del resto del mundo?
- ¿Qué pasa si toda la tecnología desapareció?
- ¿Cuáles son las tecnologías en el futuro que nos van a cambiar?
- ¿Cómo afectará una inversión del campo magnético de la Tierra a la tecnología moderna?
El problema central en el negocio de la transcripción es que la comunicación humana no es un problema de matriz 1xN, es un problema de matriz MxN: utilizamos señales visuales y psicológicas para inferir el contexto y el habla. Dado que los algos de transcripción no usan ninguno de esos datos, esas soluciones serán para siempre ineficientes.
Otro aspecto es que todas las implementaciones actuales son solo esfuerzos impulsados por software. No existe una adopción comercial de la tecnología de micrófonos de múltiples arreglos o el filtrado selectivo basado en el conocimiento ambiental / ambiental. Esta tendencia solo empeorará en los próximos dos o tres años, mientras que ML / big data supera el pico de expectativas infladas.