En una grabación a larga distancia siempre habrá eco de la señal reflejada desde las paredes. Entonces el sonido es bastante diferente de hablar de cerca.
El clasificador de aprendizaje automático puede ayudarlo a discriminar entre dos casos. Solo necesita recolectar suficientes muestras de conversación cercana y conversación distante y entrenar a un clasificador GMM para discriminar entre ambos. Puede encontrar algunos detalles sobre cómo entrenar un GMM aquí. Puede simular la acústica de la sala para entrenar en una mayor cantidad de datos con una simple reverb de sox. Hay métodos más avanzados como las respuestas de impulso de openslr.org
Para la extracción de características, puede usar MFCC, debería ser suficiente. Si desea discriminar de manera más confiable, puede incluir funciones de “eco” junto a MFCC simple. Por ejemplo, puede usar la correlación cruzada para estimar el retraso de tiempo como en la Correlación cruzada de la señal retrasada en ruido y luego simplemente incluir esa estimación en las características.
- ¿Cómo está bien si me resulta difícil recordar todo después de terminar el curso de aprendizaje automático?
- ¿Tiene sentido usar redes neuronales convolucionales en la identificación biométrica humana basada en ECG?
- ¿Podemos aplicar tanto la selección de características como la reducción de dimensionalidad?
- ¿Hay algún proyecto / investigación de Machine Learning interesante en el que pueda trabajar de forma independiente?
- ¿Cómo deberías comenzar una carrera en Machine Learning?