¿Cuál es una buena manera de entender la maldición de la alta dimensión en el aprendizaje automático?

Agregué una respuesta a la respuesta de Michael Li sobre cómo interpretar la figura, pero creo que el siguiente argumento simple es mucho más intuitivo para pensar en la maldición de la dimensionalidad.

Suponga que está en una unidad de hipercubo en un espacio D-dimensional, y las observaciones se extienden por todo el interior del hipercubo. Desea capturar una fracción r de esas observaciones cercanas con un cubo más pequeño cuya longitud de borde es x. Entonces necesitas un cubo con [math] x = r ^ {1 / D} [/ math] para capturar una fracción r.

Luego, para capturar el 10% en (solo) espacio de 10 dimensiones, la longitud del borde del cubo de captura es el 79% del rango de cada dimensión (x = (0.1) ^ (1/10) = 0.79), que no es tan “local” en el sentido de geometría de baja dimensión con la que nos sentimos cómodos. (Por lo tanto, los vecinos más cercanos podrían no ser una buena idea). Esta es solo otra forma de decir que, en un espacio muy oscuro, hay tantos números de valores posibles, que crece exponencialmente con D.

Esto es realmente un artefacto de nuestra intuición humana en 3D limitada de “distancia” y “espacio”. Tiene razón en que la masa de probabilidad se encuentra cerca del centro del caparazón, o dicho de otra manera, que la función de distribución de probabilidad es más alta cerca del origen.

Para que una Gaussiana [matemática] n-dimensional (X_1, \ ldots, X_n) [/ matemática] esté dentro de 1 del origen, la suma de los cuadrados [matemática] X_1 ^ 2 + \ cdots + X_n ^ 2 < = 1 [/ math] tiene que ser menor que 1. De hecho, si se trata de unidades gaussianas, entonces el valor esperado es 1:
[matemáticas] \ mathbb {E} [X_1 ^ 2] = 1 [/ matemáticas]
y la expectativa de la suma de los cuadrados
[math] \ mathbb {E} [X_1 ^ 2 + \ cdots + X_n ^ 2] = n [/ math].
Entonces puede ver que [matemática] X_1 ^ 2 + \ cdots + X_n ^ 2 [/ matemática] es mucho más probable que sea menor que 1 cuando [matemática] n [/ matemática] es pequeña que cuando [matemática] n [/ matemáticas] es grande. ¡Y recuerde que cada término en esa suma no es negativo, por lo que la suma solo puede aumentar a medida que agrega más términos!

Una forma de pensar sobre esta paradoja es que nuestra noción de espacio se distorsiona cada vez más. Claro, el pdf todavía es más alto en 0, pero hay mucho más espacio más lejos de 0 que, aunque el pdf en esos puntos es más bajo, cuando integra todos los puntos para algunos [matemáticos] r> 0 [/ matemáticos] grandes, podría encuentra que el vector gaussiano tiene muchas más probabilidades de estar allí que cerca de [math] r = 0 [/ math].

Imagina configurar una distribución gaussiana en 2D en m & m’s en una mesa. Si fueran todos verdes, se vería así.

Ahora imagine clavar un lado de una varilla delgada (giratoria) en el centro de esa mesa como la manecilla de un reloj.

La distribución de probabilidad en función del radio es, por ejemplo, el número de m & m que un intervalo de 1 cm dado en la barra tocará a través de una rotación de 360 ​​grados . Lo que notas es que:

  • la densidad de m & m’s por cm ^ 2 de la tabla es más alta en el punto muerto
  • pero el número de cm ^ 2 que se extiende un intervalo en la barra es proporcional a la distancia que se encuentra el intervalo desde el punto muerto.

Entonces hay una optimización por hacer. Si nos movemos a través de los intervalos a lo largo de la barra, la densidad de m & m disminuye de manera proporcional a [matemáticas] e ^ {- (r / r_0) ^ 2} [/ matemáticas], pero el área barrida por un intervalo aumenta proporcionalmente a [matemáticas] r [/ matemáticas].

Si agregamos otra dimensión, la barra ahora también puede tener un ángulo de rotación en esta nueva dimensión. La densidad de m & m’s – ahora el número de m & m’s por cm ^ 3– todavía disminuye exactamente de la misma manera con el radio, proporcional a [math] e ^ {- (r / r_0) ^ 2} [/ math] ya que el radio es radio No importa cuántas dimensiones tengamos. Pero el número de cm ^ 3 que puede barrer un intervalo de 1 cm en la barra es proporcional a [matemática] r ^ 2 [/ matemática].

Resumen: cada vez que agregamos otra dimensión:

  • no cambiamos la dependencia de (probabilidad por volumen) del radio
  • agregamos otro factor [math] r [/ math] a la dependencia de (volumen) del radio.

Por lo tanto, el pico en la gráfica de (probabilidad vs radio) se mueve a valores [matemáticos] r [/ matemáticos] más grandes a medida que aumenta la dimensión.

La cuestión básica: el radio obtiene una contribución de cada dimensión individual. Entonces, a medida que agrega más y más dimensiones, tiene sentido que el radio siga creciendo.

Si tiene una variable aleatoria gaussiana n-dimensional, escriba sus componentes como [math] X_1, \ ldots, X_n [/ math]. Entonces la distancia al cuadrado desde el origen, r ^ 2, viene dada por [matemáticas] X_1 ^ 2 + \ cdots X_n ^ 2 [/ matemáticas]. Aplicando la ley de los grandes números, puedes ver que esto se parece cada vez más a n, ya que n va al infinito. La distribución de aspecto normal del radio se explica por el teorema del límite central.

La respuesta se basa en el hecho de que no soy bueno en matemáticas y no soy inteligente. Pero puedo compartir mi experiencia.
No empieces leyendo el libro del obispo. Primero debes intentar aprender matemáticas. En serio, el aprendizaje automático es básicamente estadística y optimización. Confía en mí cuando vayas a los próximos capítulos, te perderás.