¿Qué es una explicación simplificada y una prueba del lema de Johnson-Lindenstrauss?

¿Por qué las proyecciones aleatorias son probablemente tan efectivas como las diseñadas cuidadosamente?

Esta pregunta que ha hecho en la sección “detalles” es la pregunta clave del lema JL. Y la desafortunada verdad es que no lo son . O más bien, lo son, pero solo cuando sus datos están por todas partes.

Para ver por qué, considere este ejemplo de juguete que dibujé. (Tenga en cuenta que este ejemplo se eligió porque podemos visualizar 3 dimensiones, y no porque la matemática del lema JL sea útil aquí. Es solo para intuición).

Esto nos lleva a nuestro primer punto: para entender una versión “simplificada” del lema JL, debemos entender:

¿Qué dice realmente el lema de JL sobre las proyecciones?

Intuitivamente, el lema de JL dice que es esto: si elige un subespacio aleatorio y proyecta en él, las distancias por pares escaladas entre puntos probablemente se conservarán .

Esto será cierto independientemente del conjunto de puntos que tenga. Pero notará que en el ejemplo de la derecha, algunos aviones parecen ser “mejores” que otros. En el conjunto de puntos a la izquierda, probablemente podría proyectarse en cualquier plano, y seguramente sería igualmente malo. Pero los datos de la derecha parecen estar cerca de un plano, por lo que intuitivamente, los planos “cercanos” a los datos parecen ser “menos malos”.

Por un lado, el lema JL nos dice que las distancias por pares probablemente no estén distorsionadas. Pero, por otro lado, la geometría nos dice que algunas proyecciones son “mejores” que otras. Y este desajuste nos dice algo interesante sobre las proyecciones aleatorias:

  • La distancia por pares no nos dice todo lo que hay que saber sobre la reducción de dimensionalidad . El lema JL por sí solo no puede decirnos por qué algunas proyecciones son peores que otras en el conjunto de datos de la derecha. Todo lo que nos dice es que la distancia por pares escalada no se distorsiona demasiado.
  • Pero sigue siendo bastante útil . Por ejemplo, si estaba ejecutando vecinos más cercanos aproximados o algo así, podría elegir una proyección aleatoria y reducir la dimensión de manera significativa, pero aún así sería principalmente correcta.

Entonces, en cierto sentido, el lema JL parece funcionar porque las distancias por pares no son tan importantes para la reducción de la dimensionalidad como podríamos haber esperado. Aún así, es interesante que sean tan resistentes a la proyección aleatoria, y parece que vale la pena preguntarse por qué.

Una definición más formal del lema JL

Primero expondré el lema JL, y luego demostraré la intuición usando una caricatura de una prueba, lo que debería darle una buena idea de por qué es cierto.

Proposición 1 (el lema JL): Para algunos [math] k \ ge O (\ log m / \ varepsilon ^ 2) [/ math] (donde [math] \ varepsilon [/ math] es nuestra tolerancia de error elegida), con alta probabilidad, el mapa [matemática] f: \ mathbb {R} ^ d \ rightarrow \ mathbb {R} ^ k [/ math] no cambia la distancia por pares entre dos puntos más que un factor de [math] (1 \ pm \ varepsilon) [/ math], después de escalar en [math] \ sqrt {n / k} [/ math]).

Hay un par de cosas que es bueno notar sobre el lema JL que podrían ayudarlo a saber cuándo es aplicable a sus problemas.

  • Hace declaraciones para la reducción del espacio alto al espacio “medio”. Realmente no funciona de la misma manera para espacios extremadamente pequeños, como [math] \ mathbb {R} ^ 1 [/ math].
  • De acuerdo con el lema JL, nuestra elección de [math] k [/ math] (recuerde que estamos mapeando de [math] \ mathbb {R} ^ d [/ math] a [math] \ mathbb {R} ^ k [ / math]) debería depender solo del número de puntos [math] m [/ math] y nuestra tolerancia al error [math] \ varepsilon [/ math].

Una caricatura de una prueba

[ Nota: creo que esta “caricatura” se debe a Avrim Blum, pero no puedo encontrarla, por lo que no puedo estar seguro.]

La esencia de la prueba es esta: el lema JL se deduce del hecho de que la longitud al cuadrado de un vector se concentra bruscamente alrededor de su media cuando se proyecta en un subespacio aleatorio [matemático] k [/ matemático]. Lo que pretendemos mostrar en esta sección es por qué esto incluso sería cierto o útil para probar el lema JL.

Comenzaremos como algo que realmente no se parece al lema de JL, pero al final con suerte quedará claro cuál es la relación.

Primero, digamos que muestreamos aleatoriamente [matemática] m [/ matemática] puntos que se encuentran en la superficie de una esfera dimensional [matemática] d [/ matemática]. Estos puntos también pueden verse como vectores aleatorios de longitud unitaria.

Nos gustaría ver cómo se comportan las coordenadas individuales. Entonces simplificaremos un poco la imagen.

Dado que se encuentran en una [dimensión matemática] d [/ matemática], son puntos en [matemática] \ mathbb {R} ^ d [/ matemática]. Pero tenga en cuenta que, independientemente del tamaño de [math] d [/ math], podemos decir que estos puntos se encuentran en un subespacio dimensional [math] m [/ math], porque solo hay [math] m [/ matemáticas] puntos. Entonces diremos que se encuentran en [math] \ mathbb {R} ^ m [/ math].

Comencemos mirando la primera coordenada. Según la teoría de probabilidad estándar, sabemos que [math] \ mathbb {E} [x ^ 2_1] = 1 / m [/ math]. Tenga en cuenta que a medida que [math] m [/ math] aumenta, la concentración aumenta precipitadamente, lo que significa que los valores reales de las coordenadas se concentrarán fuertemente alrededor de este valor.

Ahora nos gustaría extender esta intuición para observar todas las coordenadas. Dado que el valor de estas coordenadas se concentrará fuertemente alrededor de [matemática] 1 / m [/ matemática] para grandes [matemática] m [/ matemática], podemos ver que el tipo de coordenadas parece un poco iid. En realidad no lo son, porque si una coordenada es grande, las otras son necesariamente pequeñas, pero esta “nitidez” significa que son “casi” iid. Esto no es una prueba real, ¿verdad? Entonces, digamos que son iid con fines ilustrativos.

Si son iid, entonces podemos aplicar nuestro Chernoff / Hoeffding favorito para decir que, con una probabilidad realmente alta, todas las coordenadas estarán realmente muy cerca de ser [matemáticas] 1 / m [/ matemáticas] en tamaño. Por ejemplo, [matemáticas] p (| (x_1 ^ 2 + \ ldots + x_k ^ 2) – k / n | \ ge \ varepsilon k / n] \ le 1 / (e ^ {O (k \ varepsilon ^ 2) }) [/ math]. Recuerde, esto es si son iid, que por supuesto no lo son, pero se ven como si fueran. Esto es intuición.

En este punto, estamos listos para mirar proyecciones aleatorias. La idea básica es que tomaremos un plano aleatorio y proyectaremos nuestros vectores unitarios en él. Aquí hay una serie de ejemplos “aleatorios” que inventé (tenga en cuenta que el plano de proyección se traduce al origen).
Pero resulta que podemos ver las proyecciones vectoriales de una manera más interesante. Proyectar desde [math] \ mathbb {R} ^ m [/ math] a [math] \ mathbb {R} ^ k [/ math] es básicamente lo mismo que rotar aleatoriamente el vector, y luego leer el primero [math ] k [/ math] coordenadas.

Ahora llegamos al lema JL: para que el lema JL sea básicamente verdadero, la distancia entre los dos vectores debe ser casi la misma después de escalarla en consecuencia. En la imagen de arriba, los vectores proyectados tienen una línea punteada que representa la distancia. En otras palabras, ese vector debe tener casi la misma longitud escalada que en el ejemplo original.

Como era de esperar, resulta que esto es cierto. Aquí están las matemáticas que lo justifican.

Usando el límite de Chernoff-Hoeffding anterior, vemos que en [matemáticas] k = O (\ frac {1} {\ varepsilon ^ 2} \ log n) [/ matemáticas], entonces con probabilidad [matemáticas] 1 – O (n ^ p) [/ math] (para casi cualquier elección entera positiva de [math] p [/ math] que desee), la proyección a las primeras coordenadas [math] k [/ math] tiene una longitud [math] \ sqrt {k / n} \ cdot (1 \ pm \ varepsilon) [/ math].

Ahora, veamos la distancia entre un par de vectores. Digamos que nuestros vectores regulares no proyectados se llaman [math] \ vec {v} _1 [/ math] y [math] \ vec {v} _2 [/ math]. Entonces el vector que representa la línea punteada entre los vectores originales sería [math] \ vec {d} = \ vec {v} _2 – \ vec {v} _1 [/ math].

Y aquí está la línea de golpe. Podemos tomar ese “vector de distancia” que va entre nuestros vectores originales, y usar el mismo argumento de proyección que el anterior. Por lo tanto, con alta probabilidad (por el límite de la unión), la longitud de todos estos “vectores de distancia” [matemática] \ vec {d} [/ matemática] se proyecta a la longitud [matemática] \ sqrt {\ frac {k} {n} } \ cdot (1 \ pm \ varepsilon) || \ vec {d} || _2 [/ math].

Hacia argumentos más generales.

Así que esa es la intuición de por qué el lema JL es cierto. Como dijimos antes, el lema JL se deduce del hecho de que la longitud al cuadrado de un vector se concentra bruscamente alrededor de su media cuando se proyecta en un subespacio dimensional [matemático] k [/ matemático] aleatorio. Espero que esta última sección explique aproximadamente por qué esto nos ayudaría a probar el lema JL, y es un comienzo de por qué es cierto de manera más general.

Si quieres saber más, espero que esto te ayude a descubrir las pruebas que flotan por ahí. Diría que la respuesta de Alexandre Passos es un comienzo razonable. Existe un excelente tratamiento en Fundamentos del aprendizaje automático, de Mohri et al . Es un libro excelente de todos modos, y deberías leerlo solo porque sí.

La idea central detrás del lema de Johnon-Lindenstrauss (si quiere intuición) es la concentración de la medida, el mismo fenómeno que garantiza que las sumas de distribuciones binomiales tienen un aspecto gaussiano y tienen propiedades muy agradables. Para una prueba, consulte http://www-cse.ucsd.edu/~dasgupt … o http://ttic.uchicago.edu/~gregor

La idea detrás de la concentración de la medida aplicada a las proyecciones aleatorias se basa en la idea de que una proyección aleatoria debe preservar la norma de un vector con alta probabilidad (recuerde que la distancia es solo la norma del vector de diferencias, por lo que si se preservan las normas las distancias se conservan). Para ver que se conservan las normas (módulo de factor de escala), observe el valor esperado del cuadrado del primer coeficiente de la proyección. El primer coeficiente de la proyección es r · x, donde r es un vector con entradas aleatorias. El cuadrado de esto es entonces la suma de todos los pares de coeficientes de x multiplicado por todos los pares de coeficientes de r. Pero los coeficientes de r son números aleatorios, con media cero y varianza unitaria, por lo que estos valores se “promedian” y el cuadrado del primer componente de la proyección es igual a la norma del vector, con varianza acotada ( debido al teorema de concentración de medidas). Entonces, en promedio, cada coeficiente de la proyección cuando está cuadrado tiene el valor de la norma del vector, por lo que puede obtener un valor aún mejor, lo que significa que se estima simplemente promediando estos valores. Entonces, la norma del vector proyectado es igual a la norma del vector original (módulo un factor de escala), y puede empujar la varianza lo más bajo que desee agregando componentes independientes (y este es el mismo proceso que permite muestras de unos pocos cientos de personas siendo muy precisas al estimar millones de votos).

Entonces, tl; dr: el lema johnson-lindenstrauss es verdadero porque el cuadrado del producto punto entre un vector aleatorio y cualquier vector es, en expectativa, igual a la norma de ese vector. Luego puede mejorar la estimación utilizando más vectores aleatorios hasta que la varianza sea menor que cualquier umbral fijo, con alta probabilidad.

More Interesting

¿Cuáles son las herramientas / software más utilizados para el aprendizaje automático / big data?

Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?

¿Los métodos de aprendizaje automático son generales en comparación con los métodos de series temporales que se pueden llamar especializados?

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados ​​en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

¿Siri es una forma de aprendizaje automático?

¿Por qué el uso de información mutua / ganancia de información / funciones similares funciona mejor que simplemente usar el error promedio (usando probabilidad) para un booleano (conjunto de datos de 2 clases) al construir un árbol de decisión?

¿Existe una buena herramienta de aprendizaje de idiomas?

Cómo hacer una selección y clasificación de características adecuadas en datos dispersos de alta dimensión y altamente desequilibrados

¿Cuáles son las diferencias entre los árboles de decisión, los métodos de agrupamiento y las redes neuronales?

¿Implementó algoritmos de aprendizaje automático desde cero con el propósito de aprender?

¿Cómo se implementa el aprendizaje profundo en Amazon Go (tiendas de comestibles especiales en las que recoges lo que quieras y luego te vas sin esperar a pagar)?

¿Puedo usar el algoritmo de aprendizaje automático en mi proyecto de investigación aunque no soy un experto en él?

¿Qué dice el profesor Yaser Abu-Mostafa en su conferencia sobre la viabilidad del aprendizaje?

¿Por qué es importante la ciencia de datos?

¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?