¿Hay algún algoritmo (o aplicación) que pueda distinguir entre música, habla o galimatías al azar?

Hay innumerables enfoques a esto en la literatura.

Muchos de ellos aplican algún tipo de análisis espacial (traducir: métodos que no se preocupan por las dependencias de tiempo), es decir, aprendizaje automático o análisis estadístico a características discretas derivadas del espectro de audio. Las características generalmente corresponden a “mosaicos” de audio adyacentes y no superpuestos (quizás fragmentos de 1 segundo). Se aplica algún tipo de transformación de características a estos mosaicos. Por lo general, esta sería una transformada de Fourier discreta para obtener los datos en el dominio de la frecuencia (para derivar un espectro) y luego tal vez algo por encima de eso, como una función de energía, centroide espectral, binning o lo que sea. Estos luego van a un clasificador para entrenarse en datos anteriores y probar nuevos datos. El clasificador podría ser cualquier cosa; Soporte de máquina de vectores, red neuronal artificial, árboles de decisión, Bayes ingenuos, modelo gráfico, etc.

Las transformadas Wavelet también se pueden usar en lugar de las transformadas de Fourier. Vale la pena señalar que las transformadas de Fourier tienen una complejidad de tiempo cuadrática y las wavelets se pueden calcular en tiempo lineal. Por lo tanto, tiene sentido utilizar mosaicos pequeños en transformaciones de Fourier. La solución común de resolución de tiempo / frecuencia con el análisis de Fourier probablemente no será un problema porque supongo que la precisión de 1 segundo es lo suficientemente buena para esta aplicación.

Se podrían usar modelos estocásticos basados ​​en el tiempo, por ejemplo, modelos ocultos de Markov.

Echa un vistazo a Google Scholar.

Búsqueda de Google Académico: discriminación del habla por audio no hablado

La detección de actividad del habla es un área activa de investigación en tecnologías del habla. En este documento se utilizaron redes neuronales profundas: página en upenn.edu para resolver este problema y obtienen un poco más del 80% de la señal de voz clasificada correctamente en los videos de YouTube. Esta página en papel en mirlab.org aborda el problema de distinguir el habla y la música en las transmisiones de radio. Un problema con su pregunta es que los algoritmos para estas tareas a menudo dependen en gran medida del dominio al que se aplican y un algoritmo que funciona bien en algunos casos no funcionará bien en otros. Estos son problemas difíciles y todavía hay mucho margen de mejora en el trabajo existente.

Además, la música, especialmente si incluye piezas modernas, será muy difícil de distinguir de otro audio.

Mi enfoque ingenuo sería utilizar el algoritmo de clasificación. Implemente un clasificador (clasificador Bayes, clasificador perceptrón …) basado en el aprendizaje de una cantidad significativa de datos de audio etiquetados.

Luego, para datos de audio desconocidos, ingrese los datos en el clasificador, debería poder decir de qué género es.

Estoy haciendo mi investigación en tecnología del habla y estoy pensando en crear una de esas aplicaciones. No he hecho suficiente encuesta de mercado para decirte si hay una aplicación sobre esto ni suficiente encuesta de literatura para decirte concretamente que podemos diferenciar entre las cosas en cuestión. Desde el enfoque de las técnicas de Machine Learning puede diferenciar, pero nuevamente no está seguro de si la Clasificación puede ser 100% precisa.

http://asmp.eurasipjournals.com/

Puede encontrar esto interesante.

More Interesting

Arquitectura de la computadora: ¿Cómo cambiará el chip coprocesador de 50 núcleos de Intel recientemente anunciado al mercado de servidores y HPC?

¿Cómo publicar un trabajo de investigación en informática? Quiero investigar en algoritmos. Por donde puedo empezar

Entre USC, UC Irvine y UC Davis, ¿qué universidad es el mejor lugar para obtener un Máster en Informática en términos de actividades de investigación actuales y oportunidades de pasantías disponibles?

Cómo encontrar un tema de investigación en informática adecuado para estudiantes universitarios

¿Cuáles son algunos temas candentes en la investigación en nanotecnología?

¿Cómo puede la investigación de CS, como la investigación de visión por computadora, contribuir a las áreas de astronomía?

¿Cuáles son algunas cosas no técnicas que uno debe saber al comenzar a hacer un doctorado en bases de datos o sistemas distribuidos?

¿Cuáles son los últimos desarrollos en computadoras?

¿Cuánto más rápido es una computadora cuántica que una computadora tradicional? ¿Cómo se realiza el direccionamiento de memoria?

¿Cuál es la mejor manera de estimar computacionalmente la cardinalidad de conjuntos muy grandes?

¿Cómo es trabajar en un laboratorio de investigación de primer nivel?

¿Cómo puede un adolescente publicar un trabajo de investigación?

¿Dónde debería comenzar investigando las recomendaciones sociales?

¿Qué tan bueno es el curso de informática en RIT?

¿Qué productos han salido de Microsoft Research?