¿Hay proveedores de reconocimiento de voz que aún brinden soluciones de servidor en las instalaciones (no en la nube) en 2017?

Si hay algunos:

  1. DragonDictate: Dragon estuvo presente incluso antes de que Google o IBM Watson ingresaran al negocio de reconocimiento de voz.

Dragon NaturallySpeaking: el software de reconocimiento de voz más vendido del mundo

2. Tazti: más información sobre el uso, como comandos de voz en juegos, robótica, instrumentos médicos, etc.

https://www.tazti.com/index.php

3. CMU Sphinx

Si está buscando reconocimiento de voz en las instalaciones, puede usar CMU sphinx para implementar su propio código abierto y gratuito. En realidad, casi todos (incluido Google) utilizan algún tipo de software CMU / Edinburgh para el reconocimiento de voz y la síntesis de voz.

Han existido desde hace siglos. Lo que cambió el juego es: las compañías de tecnología reunieron muchas muestras de voz de personas de todo el mundo para desarrollar modelos de capacitación. Una vez entrenados utilizando una red avanzada como LSTM-CNN o LSTM apilada, comenzaron a proporcionar servicios a través de la nube.

Afortunadamente, para ti, CMU Sphinx ya tiene una lista de modelos de entrenamiento disponibles. Puede implementar desde algo ya disponible y es probable que funcione el 99% del tiempo.

Explorar / Modelos acústicos y de lenguaje en SourceForge.net

Esto sería suficiente para reconocer varios tipos de modelos de voz que podrían no ser el caso con los softwares de PC disponibles en el mercado.

En el futuro:

Si es para uso interno, puede comenzar a recopilar muestras de voz de la organización. Hay un tutorial para ello y no es tan sencillo.

Modelo acústico de entrenamiento

Pero, esto es solo reconocimiento de voz. La síntesis de voz es un juego de pelota diferente. Puede emular el discurso de una persona desarrollando un modelo de voz usando FestVox.

PD: He generado dos modelos de voz india usando FestVox como proyecto universitario. Las cosas han cambiado para mejor y es más fácil generar tu propia voz para voicebot.

Deepgram (Deepgram) está trabajando para proporcionar una caja en las instalaciones.

Varios productos de Nuance actualmente admiten implementaciones de servidores locales:

  • Dragon Professional / Legal Group v15
  • Aplicación de la ley del dragón
  • Dragon Medical Practice Edition 2

More Interesting

¿Cuál es el proceso de reconocimiento de voz (en resumen)?

¿Cuáles son algunos libros sobrevalorados en aprendizaje automático, estadísticas y aprendizaje profundo?

¿Podría alguien explicarme la idea básica de la búsqueda del vecino más cercano (ANN) y mostrar un ejemplo?

¿La asignación de Dirichlet latente es un modelo paramétrico o no paramétrico?

Cómo identificar entidades en una consulta de búsqueda en lenguaje natural

¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?

¿Qué biblioteca de Java utilizas para los algoritmos genéticos? ¿Por qué?

¿Qué IIT en India tiene el mejor programa de CS para el aprendizaje automático?

¿Es factible hacer una regresión logística en conjuntos de datos con miles de características sin usar una computadora de clúster? ¿Qué tal decenas de miles?

¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?

¿Cuáles son las mejores conferencias sobre aprendizaje automático para el procesamiento de imágenes médicas en 2016?

¿El aprendizaje automático es un comienzo de invasión de estadísticas?

Cómo implementar la detección y clasificación de frutas de manzana usando MATLAB en una aplicación antroidea

Cómo hacer que un estudiante de pre-varsity entienda la diferencia entre estadística paramétrica y no paramétrica

¿Hay algún conjunto de datos o API que proporcione una lista de palabras poco frecuentes?