¿Existe una incrustación del espacio euclidiano en el espacio hamming?

Muchos bits, mucho error, muy códigos, ¡guau!

¡Es un tema candente en el aprendizaje a gran escala, la codificación de fuente y la detección comprimida!

Aunque la binarización de vectores es un tema bastante interesante, en la codificación ML / Source, el enfoque es en gran medida utilizar una distancia de hamming rápida / distancias aproximadas a través de una LUT que calcular la métrica L2. En otras palabras, trata de preservar el vecindario de la siguiente manera:

if \ math x_2 = vecino más cercano (\ math x_1) entonces \ math x_2 ~ vecino más cercano (función de cuantización (\ math x_1))

Como se señala a continuación: Hashing espectral hace exactamente eso, pero no garantiza la minimización del error de reconstrucción cuando los puntos de datos se asignan de nuevo desde su representación de espacio de Hamming a L2.

Eche un vistazo a los siguientes temas:

1. Hashing sensible a la localidad.
2. Máquinas restringidas de Boltzman. [Variante de redes neuronales]
3. Hashing espectral.
4. Incrustación de Hamming
5. Cuantización del producto.
6. K-medios cartesianos.

¡Que las partes estén a tu favor!

Algo que te dejaría boquiabierto: ¡los bits se pueden compartir entre las dimensiones de los vectores! ¡Número fraccional de bits por dimensión!

La distancia entre vectores reales es un número real, mientras que la distancia entre vectores binarios es generalmente un número entero. Esto no funcionará en general.

Página de hash espectral en mit.edu