Yo mismo no he trabajado en la conversión de voz a texto, pero uso Google Voice como mi sistema de correo de voz y proporciona transcripciones de voz a texto. Supongo que es esencialmente lo último (por qué Google usaría un software de segunda categoría). Es lo suficientemente bueno como para que básicamente puedas obtener los puntos clave de lo que se dijo alrededor del 80% del tiempo, pero ocasionalmente obtienes algo tan confuso que no tiene ningún sentido. Creo que un sistema que puede ser entrenado en un solo usuario específico funcionará mejor. Un sistema que tiene que funcionar en un entorno ruidoso con muchas fuentes de sonido diferentes será mucho peor. No sé qué tan bien funcionan estas cosas en otros idiomas además del inglés, pero no creo que se requiera demasiada personalización además de una gran cantidad de datos de capacitación, así que supongo que cualquier idioma con millones de hablantes (o al menos cualquiera con 50 millones o más) tiene una tecnología de voz a texto construida para ello que es más o menos comparable. Por otro lado, quizás algunos idiomas sean mucho más difíciles o más fáciles (por ejemplo, los idiomas con menos vocales podrían ser más fáciles de diferenciar palabras).
¿Qué tan precisos son los convertidores de voz a texto que están en uso, a nivel mundial (diferentes pronunciaciones)?
Related Content
¿Por qué Alemania no crea empleados con inteligencia artificial para reemplazar a los inmigrantes?
Cómo preparar a mis hijos para 2030 y en adelante cuando la IA está reemplazando a los humanos
¿Qué es más fácil de aprender: IA o aprendizaje automático?
¿Deberíamos hacer inteligencia artificial para robots? Si es así, ¿hasta dónde debemos llegar?
Creo que el consenso es hasta un 90% correcto de fábrica (como Dragon Dictation). Si el sistema es costoso comercial y sofisticado, si se puede entrenar a su voz, y puede continuar corrigiéndolo a medida que lo usa, en un espacio tranquilo, puede aprender a funcionar tan bien como un oído humano. Sin embargo, dado que los humanos también aplicamos el contexto semántico a las palabras escuchadas que la máquina no puede, pasará un tiempo antes de que la máquina sea nuestra igual. (¿Más de 20 años?) Sin una IA a nivel humano en toda regla, la máquina probablemente quedará en desventaja para un adulto inteligente.
No lo son, porque calificó la pregunta con “global”. El único convertidor de voz a texto “global” preciso sería el algoritmo de inteligencia general. Todos los demás tienen esa capacidad como un objetivo inalcanzable a medida que sus bases de datos de diferentes acentos y generalidades sobre ellos (menos la generalidad final con respecto a todo el conocimiento) se acercan a lo que generaría un GIA para procesar el discurso.
More Interesting
Cómo ganar dinero haciendo investigación de IA, sin ningún título
¿Cuál es el mejor libro para aprender IA?
¿Cuáles son las dificultades comunes para los nuevos desarrolladores en aprendizaje automático?
¿El diseño gráfico estaría a salvo de la tendencia de la IA?
¿Qué significa que LSTM sea multicapa?
¿Me puede recomendar algunos conceptos teóricos que sean útiles para el aprendizaje profundo?
¿Qué tan bien maneja Parsey McParseface las oraciones del camino del jardín?
¿Obtener un título en CS me ayudará a entrar en el aprendizaje automático y la IA?