Cualquier reconocimiento de la señal de la computadora (lo mismo se aplica al shazam que a la visión por computadora; esto hace que Google reconozca los rostros de las personas en su biblioteca de fotos) se esforzará por extraer y reconocer invariantes estadísticos de la señal entrante.
Es decir, las propiedades matemáticas de la señal que permanecen iguales cuando se transforma la señal, para la visión, eso podría ser la detección de borde (o caja) de una manera que es invariable a la rotación de la caja / borde. Para el sonido, cosas como las funciones de correlación en una ventana local pueden servir para el mismo propósito.
Básicamente, en términos muy amplios, está buscando algo que no sea un hash, sino una función matemática (o un conjunto de ellas) que puede ser una firma única de la pieza (o más probablemente un segmento de la misma) mediante la cual pequeñas variaciones en la señal de origen (a través de dimensiones que no son musicalmente significativas, por ejemplo, si la melodía se publica de nuevo en un sistema deficiente y corta todo por debajo de 100Hz y por encima de 13k, todavía lo reconocerá, y también Shazam, por lo que, aunque tal pérdida de reproducción había cambiado el señal drásticamente, no ha cambiado mucho en términos de la dimensión que nos interesa) produce pequeñas diferencias en la salida de la función (por lo que puedo reconocer que lo que alimentaste es la pista X porque a través de esta función me da algo cerca de la salida de la función que he almacenado para mi versión de referencia de X) y tengo pocas posibilidades de que diferentes pistas se asignen a valores de salida similares (para limitar los falsos positivos).
- ¿Qué es la tecnología scom?
- ¿Funcionaría un gobierno tecnocrático mejor que uno democrático?
- ¿Cuál es la tecnología de moda en la industria de TI y por qué? ¿Qué tecnología dará un buen comienzo para refrescarse con un excelente paquete en India?
- ¿Cuál es la pila tecnológica detrás de la aplicación haptik?
- Gestión de contenido: ¿Cuáles son las características que debe tener un sitio web de eGovernement?
Eso es muy general. Shazam es bastante reservado de su algoritmo, porque después de todo eso es una especie de núcleo de su negocio, por lo que es especulativo, aunque espero que podamos asumir con seguridad tanto como lo anterior en los trazos del tablero: en última instancia, convierten su fragmento de audio en números y luego miran subir ese número a una base de datos asociada a pistas de referencia. Puede haber varias cosas de ese tipo en paralelo, de modo que si su fragmento coincide con la misma pieza de acuerdo con muchas de esas funciones, es un éxito (mientras que a través de una sola función puede coincidir con muchas cosas).
Sería interesante ver cómo le va a Shazam con las piezas lanzadas hacia arriba o hacia abajo: existen trabajos para sus propósitos que podrían esperar realmente lidiar con las cosas reproducidas a la velocidad original, por lo que el tempo y la información clave pueden proporcionar un primer paso en el filtrado.
Entonces la respuesta de una palabra: matemáticas. Ellos usan … ¡Matemáticas!