¿Cómo se relaciona el aprendizaje automático con el procesamiento de señales?

No tengo mucha idea de cómo están relacionados, pero conozco un ejemplo que me gustaría compartir. Debes haber visto bots artificiales como Siri y otros programas de ml como Cortona, Amazon echo dot que hace el reconocimiento de voz. la señal de sonido se puede convertir en forma de texto simplemente al hablarle.

Ahora, ¿cómo funciona realmente?

Onda sonora de “hey there” -> red neuronal-> “hey there” en texto plano.

Debe estar pensando que es fácil, simplemente alimentamos la computadora con muchas ondas de sonido, la ejecutamos a través de múltiples capas de red neuronal y luego podemos obtener nuestros resultados, pero espere

El problema es que diferentes personas hablan las mismas palabras de manera diferente. “Hola” y “diablos”. Así que primero tenemos que descubrir cómo lidiar con esto.

Convertimos las ondas de sonido en bits como lo hacemos en el reconocimiento de imágenes, lo cual es obvio. ¿Entonces, cuales son nuestras opciones? Sí, ahí lo tienes.dsp.

Supongamos que tomamos una onda de sonido de “hola”. Las ondas de sonido son unidimensionales todo el tiempo. Tienen un valor único basado en su altura. Para convertir esta onda en número, ampliaremos la ola y tomaremos la altura de puntos igualmente espaciados.

“Teorema de muestreo”, ¿le suena familiar? Simplemente tomamos una lectura miles de veces por segundo y registramos un número que representa una altura de onda de sonido en ese momento.

Nquist thorem afirma que, si tomamos muestras al menos dos veces como la frecuencia más alta, podemos reconstruir nuestra onda de sonido sin distorsión. así que incluso si estamos tomando muestras de nuestra ola, no estamos perdiendo ningún dato.

Ahora, si suponemos tomar 16000 muestras de nuestra onda de sonido “hola”, obtenemos muchas lecturas que podemos usar como datos.

Luego, dividiremos estos números en fragmentos más pequeños, por ejemplo, si tomamos nuestra primera muestra de 320, lo que genera alrededor de (320/16000) segundos de tiempo.

Por lo tanto, procesaremos estos datos para facilitar el procesamiento de la red neuronal.

Para hacerlo, aplicaremos la transformada de Fourier, que divide las ondas de sonido complejas en ondas de sonido simples que lo hacen. Una vez que tenemos ondas de sonido individuales, sumamos cuánta energía está contenida en cada una y obtenemos la importancia de cada rango de frecuencia. . Repitiendo este proceso para todos los intervalos de 20 milisegundos, podemos usar un espectograma para ver todas las notas musicales y el patrón de tono en estos datos y se puede alimentar a una red neuronal profunda.

Podemos usar una red neuronal recurrente para que el estado actual siempre influya en el próximo cálculo. Por ejemplo, después de “heeeelllll” hay mayores posibilidades de que el siguiente sonido sea “ooooooo”. Entonces se usan rnns.

Nuestra red neuronal que ya está entrenada con montones y montones de datos de sonido predecirá automáticamente palabras como “hola” fácilmente

Espero que tenga sentido.

More Interesting

¿Cuál es el algoritmo de inteligencia artificial detrás de la sugerencia de la sección de cada sitio web?

¿Existe un lenguaje diseñado para ser utilizado por la inteligencia humana y artificial?

Cuántos 'nodos' funcionales una vez integrados son; (a) requerido, (b) óptimo, para que el "cerebro global" logre una conciencia de funcionamiento coherente (sensible)?

¿Qué software, lenguajes de programación y / o bibliotecas recomendaría para comenzar a hacer investigación independiente de redes neuronales y aprendizaje automático?

¿Cuáles son las ventajas y desventajas de usar una gran red neuronal para realizar una regresión multivariada en comparación con los OLS normales?

¿Cómo puede ser útil la IA para responder al problema "difícil" de la conciencia?

¿Qué es exactamente la "creatividad computacional"? ¿Y hay algún programa aplicable desarrollado en ese campo? ¿O es solo un campo de investigación hasta ahora?

¿Cómo se usan las redes neuronales para la predicción de salida estructurada?

Si se crea una IA fuerte, ¿por qué debería servirnos?

¿Cuál es el objetivo básico de las críticas de Hubert Dreyfus a la investigación de inteligencia artificial?

¿Cómo hacer un juego de Slenderman basado en texto? Más específicamente, ¿cómo puedo darle a Slenderman una IA?

¿Qué piensa sobre el impacto de la IA y la IoT en las industrias de la construcción / arquitectura?

¿Las redes neuronales tienen suficiente poder para la generación del lenguaje natural?

Inteligencia artificial: ¿Qué tan inteligentes son las mejores personas en inteligencia artificial, en comparación con las mejores personas en matemáticas y física?

¿La IA está impulsando los mercados financieros?