¿Cuáles son los algoritmos disponibles para diseñar un detector de actividad de habla hablada cercana?

En una grabación a larga distancia siempre habrá eco de la señal reflejada desde las paredes. Entonces el sonido es bastante diferente de hablar de cerca.

El clasificador de aprendizaje automático puede ayudarlo a discriminar entre dos casos. Solo necesita recolectar suficientes muestras de conversación cercana y conversación distante y entrenar a un clasificador GMM para discriminar entre ambos. Puede encontrar algunos detalles sobre cómo entrenar un GMM aquí. Puede simular la acústica de la sala para entrenar en una mayor cantidad de datos con una simple reverb de sox. Hay métodos más avanzados como las respuestas de impulso de openslr.org

Para la extracción de características, puede usar MFCC, debería ser suficiente. Si desea discriminar de manera más confiable, puede incluir funciones de “eco” junto a MFCC simple. Por ejemplo, puede usar la correlación cruzada para estimar el retraso de tiempo como en la Correlación cruzada de la señal retrasada en ruido y luego simplemente incluir esa estimación en las características.

Related Content

Estoy usando Weka e implementé la ganancia de información forestal aleatoria usando Java. ¿Cuáles son algunos consejos sobre cómo imprimir cuántas funciones tiene después de aplicar la ganancia de información y cómo imprimir los nombres de las funciones y sus valores de ganancia de información en orden descendente (solo funciones de ganancia de información)?

¿Cómo funciona el algoritmo EM para un modelo mixto que factoriza según un modelo Naive-Bayes?

Cómo generar una oración gramaticalmente correcta y completa usando un número dado de palabras

¿Tiene sentido la regularización (L2, abandono, etc.) alguna vez para datos muy ruidosos, pero también abundantes, como series de tiempo financieras?

¿La retropropagación de red neuronal de convolución utiliza un algoritmo en línea o un algoritmo por lotes?

¿Crees que la investigación en Internet es mejor que el libro?

Quiero aprender el procesamiento del lenguaje natural en CMU. ¿Es mejor tomarlo como un estudiante de CS o tomarlo como un estudiante de lingüística (como una electiva)?

¿Cómo puedo diseñar un detector de actividad de voz de conversación cercana ( sin usar información de amplitud )?

Es posible que necesite obtener un micrófono diferente, algo con características muy direccionales, o agregar otro sensor para detectar la proximidad de la fuente de sonido. El habla solo tiene frecuencia, amplitud y tono, y si no quieres usar la amplitud, entonces tus opciones son muy limitadas.

Nickolay Shmyrev

More Interesting

Cómo usar Azure Machine Learning para la clasificación de documentos

¿Cuáles son algunos buenos indicadores para ideas de proyectos en biología computacional?

¿Es c # una buena opción para el aprendizaje automático de producción?

¿Cuáles son algunos algoritmos que un científico de datos debe saber y comprender?

¿Qué hará Keras con TensorFlow-Slim?

¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?

¿Cómo es el curso de aprendizaje automático NPTEL?

Cómo convertirse en un cerebro cuant (un quant que usa IA)

¿Puedo usar el aprendizaje automático para analizar correos electrónicos?

¿Cuáles son los mejores laboratorios de investigación en el campo de los UAV combinados con aprendizaje automático, visión y percepción por computadora?

Cómo tratar las variables categóricas al analizar los datos de la encuesta para crear una clasificación

En finanzas cuantitativas, ¿hay alguna analogía entre la optimización de la cartera y el análisis de componentes principales?

¿Cuáles son las características de un motor BS4?

¿Cuál es la diferencia entre TF-IDF-CF y CF-IDF?

¿Cómo escapa / resiste una red neuronal profunda a la maldición de la dimensionalidad?

Web Analytics