La forma en que está formulada la pregunta no es clara lo que se pregunta:
a) ¿Es más rentable aplicar PNL a la señal acústica de voz o al texto?
b) ¿Es más rentable usar métodos de PNL para texto que se originó como voz versus texto que se escribió?
Para responder a) es imposible aplicar los principios de la PNL a la señal de voz per se, por lo que supongo que quiere decir b.
La respuesta corta a b) es: ambas son apuestas bastante buenas durante al menos algunos años, pero en última instancia depende de lo que le interesa más.
- Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?
- ¿Por qué hay una disminución en el rendimiento de los modelos pre-entrenados?
- ¿Qué biblioteca de PNL cubre la mayoría de los idiomas para un proyecto de análisis de sentimientos?
- ¿Puedo aprender el aprendizaje automático sin conocer álgebra lineal, estadísticas y probabilidad?
- ¿Por qué TensorFlow tiene definiciones para muchas operaciones matemáticas?
La respuesta b) es algo difícil ya que se basa en la suposición de que podemos diferenciar de manera confiable el texto escrito del texto que se originó como discurso y está pidiendo una evaluación de las personas en la industria que confían en los productos NLP / NLU (no desarrollarlos) para lograr ciertos objetivos.
Por ejemplo, si ejecuta un centro de atención telefónica y tiene un sistema IVR (respuesta de voz interactiva), se inclinará a decir que es más valioso mejorar la NLU del texto basado en voz junto con la información generada desde la acústica señal (emociones, longitud de los espacios entre las palabras), para que el IVR pueda predecir cuándo un cliente está enojado y escalar la llamada directamente a un representante de servicio.
Por el contrario, si usted es un profesor de literatura que estudia el uso de verbos modales (“deseo”, “esperanza”, etc.) en la literatura del siglo XX, es más probable que apoye el desarrollo del texto escrito PNL.
Sin embargo, ahora considere el caso de una persona que estudia el “sentimiento” de los tweets a raíz de algún “evento importante” como el súper tazón. Los datos no serían tan claros como las personas pueden usar sus motores de voz2 en sus teléfonos para twittear o podrían escribir sus tweets (junto con todas las otras opciones como compartir un enlace a través de Twitter, etc.) aunque diría que todos ninguna modalidad de entrada de voz se basa en la escritura). Aquí, nos veríamos obligados a clasificar todos nuestros tweets de acuerdo con la forma en que fueron ingresados (si tenemos suerte, los obtenemos como metainformación) o tendríamos que abolir la distinción y tratarlos como uno.
La señal del habla en sí es un juego de pelota completamente diferente.