¿Por qué la tecnología de voz a texto nunca se ha convertido realmente en The Next Big Thing?

La transcripción no es un problema resuelto. Las tasas de error son significativas cuando no se encuentra en un entorno ideal o cuando su habla está influenciada por acentos o condiciones fisiológicas (acaba de despertarse). La transcripción propensa a errores también requiere más esfuerzo para corregir que simplemente escribir en una interfaz.

El campo ha estado en el ciclo de exageración todos los años desde mediados de los 90, y siempre ha estado a unos 5 años de distancia. El perfil se elevó con los teléfonos inteligentes específicamente porque los teléfonos inteligentes tienen los anchos de banda de transmisión de información de persona a máquina más malos de la mayoría de las plataformas informáticas (los relojes inteligentes / dispositivos portátiles son peores). He sido dueño de Glass durante dos años y esos insectores no han implementado ninguna solución utilizable para el problema del cóctel.

En la actualidad, casi todos usan un enfoque basado en la nube para este problema, que en el papel es excelente, pero la experiencia de usuario no es tan eficiente como la entrada mecánica. Espera unos segundos o dos y nunca está seguro de si el resultado será correcto. . En mi experiencia, obtiene todas las palabras poco comunes (especialmente palabras técnicas, ¿adivina en qué piensan generalmente los principales demográficos de los primeros usuarios?) Incorrecta. Si tengo que repetirme 5 veces esforzándome en adaptar mi voz para que la máquina entienda lo que estoy diciendo, realmente no tengo nada que decir que se resuelva la transcripción del habla.

El problema central en el negocio de la transcripción es que la comunicación humana no es un problema de matriz 1xN, es un problema de matriz MxN: utilizamos señales visuales y psicológicas para inferir el contexto y el habla. Dado que los algos de transcripción no usan ninguno de esos datos, esas soluciones serán para siempre ineficientes.

Otro aspecto es que todas las implementaciones actuales son solo esfuerzos impulsados ​​por software. No existe una adopción comercial de la tecnología de micrófonos de múltiples arreglos o el filtrado selectivo basado en el conocimiento ambiental / ambiental. Esta tendencia solo empeorará en los próximos dos o tres años, mientras que ML / big data supera el pico de expectativas infladas.

Muy pocas personas realmente quieren hablar con sus computadoras, especialmente para funciones de transcripción.

La tecnología está aquí, el caso de uso no.

Nunca se convertirá en “la próxima gran cosa” porque no está sucediendo todo de una vez, lentamente se está infiltrando en nuestra conciencia. En los últimos dos años, pasó de ser un complemento novedoso que ralentiza su teléfono a una herramienta realmente útil. Pero eso es para textos cortos y correos electrónicos.

Probablemente nunca se hará cargo de las oficinas porque sería molesto tener una oficina entera de personas hablando a la vez. Pero poco a poco se está volviendo cada vez más útil en más y más lugares, y no veo ningún final para esa tendencia en el corto plazo.

No se ha utilizado adecuadamente para personas con problemas de audición. Creo que este es el mercado que necesita esta tecnología.

Traducción en tiempo real de la conversación en una interfaz de Google Glass para personas con dificultades auditivas para leer.

El algoritmo de Lernaut-Haupsie estuvo atado en la corte durante 13 años, lo que perjudicó seriamente la tecnología.