¿Hay algún algoritmo (o aplicación) que pueda distinguir entre música, habla o galimatías al azar?

Hay innumerables enfoques a esto en la literatura.

Muchos de ellos aplican algún tipo de análisis espacial (traducir: métodos que no se preocupan por las dependencias de tiempo), es decir, aprendizaje automático o análisis estadístico a características discretas derivadas del espectro de audio. Las características generalmente corresponden a “mosaicos” de audio adyacentes y no superpuestos (quizás fragmentos de 1 segundo). Se aplica algún tipo de transformación de características a estos mosaicos. Por lo general, esta sería una transformada de Fourier discreta para obtener los datos en el dominio de la frecuencia (para derivar un espectro) y luego tal vez algo por encima de eso, como una función de energía, centroide espectral, binning o lo que sea. Estos luego van a un clasificador para entrenarse en datos anteriores y probar nuevos datos. El clasificador podría ser cualquier cosa; Soporte de máquina de vectores, red neuronal artificial, árboles de decisión, Bayes ingenuos, modelo gráfico, etc.

Las transformadas Wavelet también se pueden usar en lugar de las transformadas de Fourier. Vale la pena señalar que las transformadas de Fourier tienen una complejidad de tiempo cuadrática y las wavelets se pueden calcular en tiempo lineal. Por lo tanto, tiene sentido utilizar mosaicos pequeños en transformaciones de Fourier. La solución común de resolución de tiempo / frecuencia con el análisis de Fourier probablemente no será un problema porque supongo que la precisión de 1 segundo es lo suficientemente buena para esta aplicación.

Se podrían usar modelos estocásticos basados en el tiempo, por ejemplo, modelos ocultos de Markov.

Echa un vistazo a Google Scholar.

Búsqueda de Google Académico: discriminación del habla por audio no hablado

Algoritmosinvestigación en informáticaLocalización de algoritmos específicosMúsicaPregunta de existenciaProcesamiento de señal digitalReconocimiento de patronesReconocimiento de voz

¿Qué es parte del conocimiento central, tanto en un sentido práctico como teórico, que todo informático debería haber escuchado al menos o tener una comprensión básica de él?

¿Cuál es el estado del arte en redes anónimas abiertas P2P optimizadas para transmitir música o video?

¿Cuál debo elegir entre IIIT Allahabad IT y Jadavpur University CSE si estoy interesado en la codificación y la investigación en ciencias de la computación?

¿Dónde se debe comenzar en la visión por computadora?

¿Cómo es un día típico para un investigador informático?

¿Puede un estudiante de informática ganar suficiente dinero para una vida lujosa si odia crear sitios web y aplicaciones de Android?

La detección de actividad del habla es un área activa de investigación en tecnologías del habla. En este documento se utilizaron redes neuronales profundas: página en upenn.edu para resolver este problema y obtienen un poco más del 80% de la señal de voz clasificada correctamente en los videos de YouTube. Esta página en papel en mirlab.org aborda el problema de distinguir el habla y la música en las transmisiones de radio. Un problema con su pregunta es que los algoritmos para estas tareas a menudo dependen en gran medida del dominio al que se aplican y un algoritmo que funciona bien en algunos casos no funcionará bien en otros. Estos son problemas difíciles y todavía hay mucho margen de mejora en el trabajo existente.

Además, la música, especialmente si incluye piezas modernas, será muy difícil de distinguir de otro audio.

Manish Jain

Mi enfoque ingenuo sería utilizar el algoritmo de clasificación. Implemente un clasificador (clasificador Bayes, clasificador perceptrón …) basado en el aprendizaje de una cantidad significativa de datos de audio etiquetados.

Luego, para datos de audio desconocidos, ingrese los datos en el clasificador, debería poder decir de qué género es.

Priyadarshi Kunal

Estoy haciendo mi investigación en tecnología del habla y estoy pensando en crear una de esas aplicaciones. No he hecho suficiente encuesta de mercado para decirte si hay una aplicación sobre esto ni suficiente encuesta de literatura para decirte concretamente que podemos diferenciar entre las cosas en cuestión. Desde el enfoque de las técnicas de Machine Learning puede diferenciar, pero nuevamente no está seguro de si la Clasificación puede ser 100% precisa.

Manish Jain

http://asmp.eurasipjournals.com/ …

Puede encontrar esto interesante.

Devin Guocheng Xie

More Interesting

Arquitectura de la computadora: ¿Cómo cambiará el chip coprocesador de 50 núcleos de Intel recientemente anunciado al mercado de servidores y HPC?

¿Cómo publicar un trabajo de investigación en informática? Quiero investigar en algoritmos. Por donde puedo empezar

Entre USC, UC Irvine y UC Davis, ¿qué universidad es el mejor lugar para obtener un Máster en Informática en términos de actividades de investigación actuales y oportunidades de pasantías disponibles?

Cómo encontrar un tema de investigación en informática adecuado para estudiantes universitarios

¿Cuáles son algunos temas candentes en la investigación en nanotecnología?

¿Cómo puede la investigación de CS, como la investigación de visión por computadora, contribuir a las áreas de astronomía?

¿Cuáles son algunas cosas no técnicas que uno debe saber al comenzar a hacer un doctorado en bases de datos o sistemas distribuidos?