¿Qué tan precisos son los convertidores de voz a texto que están en uso, a nivel mundial (diferentes pronunciaciones)?

Yo mismo no he trabajado en la conversión de voz a texto, pero uso Google Voice como mi sistema de correo de voz y proporciona transcripciones de voz a texto. Supongo que es esencialmente lo último (por qué Google usaría un software de segunda categoría). Es lo suficientemente bueno como para que básicamente puedas obtener los puntos clave de lo que se dijo alrededor del 80% del tiempo, pero ocasionalmente obtienes algo tan confuso que no tiene ningún sentido. Creo que un sistema que puede ser entrenado en un solo usuario específico funcionará mejor. Un sistema que tiene que funcionar en un entorno ruidoso con muchas fuentes de sonido diferentes será mucho peor. No sé qué tan bien funcionan estas cosas en otros idiomas además del inglés, pero no creo que se requiera demasiada personalización además de una gran cantidad de datos de capacitación, así que supongo que cualquier idioma con millones de hablantes (o al menos cualquiera con 50 millones o más) tiene una tecnología de voz a texto construida para ello que es más o menos comparable. Por otro lado, quizás algunos idiomas sean mucho más difíciles o más fáciles (por ejemplo, los idiomas con menos vocales podrían ser más fáciles de diferenciar palabras).

¿Por qué Alemania no crea empleados con inteligencia artificial para reemplazar a los inmigrantes?

Cómo preparar a mis hijos para 2030 y en adelante cuando la IA está reemplazando a los humanos

¿Qué es más fácil de aprender: IA o aprendizaje automático?

¿Deberíamos hacer inteligencia artificial para robots? Si es así, ¿hasta dónde debemos llegar?

¿Qué es computacionalmente difícil en la automatización de juzgar las coincidencias de esgrima de aluminio?

¿Qué métodos efectivos automatizados / arquitectónicos existen para detectar trolls en línea?

Creo que el consenso es hasta un 90% correcto de fábrica (como Dragon Dictation). Si el sistema es costoso comercial y sofisticado, si se puede entrenar a su voz, y puede continuar corrigiéndolo a medida que lo usa, en un espacio tranquilo, puede aprender a funcionar tan bien como un oído humano. Sin embargo, dado que los humanos también aplicamos el contexto semántico a las palabras escuchadas que la máquina no puede, pasará un tiempo antes de que la máquina sea nuestra igual. (¿Más de 20 años?) Sin una IA a nivel humano en toda regla, la máquina probablemente quedará en desventaja para un adulto inteligente.

Randy Crawford

No lo son, porque calificó la pregunta con “global”. El único convertidor de voz a texto “global” preciso sería el algoritmo de inteligencia general. Todos los demás tienen esa capacidad como un objetivo inalcanzable a medida que sus bases de datos de diferentes acentos y generalidades sobre ellos (menos la generalidad final con respecto a todo el conocimiento) se acercan a lo que generaría un GIA para procesar el discurso.

Randy Crawford

More Interesting

Cómo ganar dinero haciendo investigación de IA, sin ningún título

¿Cuál es el mejor libro para aprender IA?

¿Cuáles son las dificultades comunes para los nuevos desarrolladores en aprendizaje automático?

A medida que los robots y otras formas de IA eventualmente toman todos los trabajos, ¿qué harán los humanos entonces?

¿No habrá futuro para los humanos en ciberseguridad cuando la IA se haga cargo? ¿Cuándo va a pasar esto?

¿Cuáles son las posibilidades de que profesiones como abogados y médicos sean reemplazadas por IA para 2067?

¿El diseño gráfico estaría a salvo de la tendencia de la IA?

¿Qué significa que LSTM sea multicapa?

¿Cómo procesa el cerebro humano o cualquier cerebro animal la información en comparación con los procesadores informáticos actuales? ¿Cómo pueden los cerebros "codificarse" por sí mismos?

¿Me puede recomendar algunos conceptos teóricos que sean útiles para el aprendizaje profundo?