Bueno, supongo que entendió mal cómo funciona NN, no son específicos del reconocimiento de imagen, puede usar NN para cualquier problema, siempre que pueda modelar sus datos correctamente con etiquetas.
El reconocimiento de imágenes es bastante común con estas bibliotecas porque, de hecho, es bastante fácil convertir una imagen en datos utilizables para NN. Tiene que encontrar una manera, (no tengo idea de esto), de representar su sonido como datos explotables para tener entrada para entrenar su NN.
Primero debe intentar obtener más información sobre el reconocimiento de voz, por ejemplo, utilizando este pdf: http://cs229.stanford.edu/proj20…
- ¿Cómo se puede aplicar el aprendizaje automático para predecir el tiempo de entrega de un producto?
- ¿Cómo se pueden engañar los modelos de clasificación existentes?
- ¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?
- Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?
- ¿Cuál es la mejor manera de hacer un análisis de sentimientos de los datos de Facebook en Java?
Podrían ser algunas bibliotecas las que transformarían directamente su discurso (sonido) en datos explotables, pero tenga en cuenta que esto no tiene nada que ver con NN, solo se trata de preprocesar los datos.
Espero que haya ayudado
Rafael