¿Es cierto que las predicciones en el espacio de alta dimensión son más difíciles en torno al origen?

El espacio dimensional alto tiene algunas propiedades no intuitivas. Imagine dos esferas con el mismo centro, una con radio 1 y la otra con radio 0.9. ¿Qué tan grandes son estas esferas entre sí? En dos dimensiones su relación es pi * 0.9 ^ 2 / pi * 1 ^ 2 = 0.81. Entonces, la esfera más pequeña tiene un 81% del área de la más grande. En tres dimensiones la respuesta es 72,9%. Esto disminuye exponencialmente para dimensiones más altas. ¡Esto significa que en grandes dimensiones, una esfera tiene la mayor parte de su volumen justo al lado de su caparazón!

Esta es la razón por la cual, como usted dice, los puntos de muestra se encuentran cerca de la superficie. No es por diseño sino simplemente una consecuencia de los puntos de muestra que se distribuyen uniformemente en el espacio de alta dimensión.

‘La pelota’ es solo una esfera definida arbitrariamente, por lo que los resultados aún se mantienen si cambia la posición de la pelota pero mantiene los puntos de muestra en el mismo lugar. No está relacionado con el origo del sistema de coordenadas en el que está trabajando y no significa que cualquier lugar en el espacio de alta dimensión sea más difícil de hacer predicciones que cualquier otro. Entonces la respuesta precisa a su pregunta es no .

En cuanto a las consecuencias para el aprendizaje automático, hay un efecto relacionado en las altas dimensiones que tocó su pregunta: tome un cubo con longitudes 1, el ‘cubo de la unidad’ y distribuya n puntos de muestra de manera uniforme dentro de él. ¿Cuál es la distancia promedio entre puntos de muestra? Esta distancia aumenta a medida que aumenta la dimensionalidad, por lo que cualquier método que se base en que los puntos de muestra sean ‘suficientemente densos’ podría tener problemas. Incluyendo la interpolación que mencionas. (1) Reinterpretando su pregunta, por lo tanto, otra respuesta podría ser: ‘El origen de la pelota está a una distancia de 1 de la superficie, pero en un espacio dimensional alto, los puntos de muestra están muy lejos el uno del otro de todos modos. Así que no, la interpolación y la extrapolación son igual de peligrosas en todas partes ‘.

Michel Verleysen analiza las consecuencias para el aprendizaje automático y la minería de datos en los siguientes documentos:

La maldición de la dimensionalidad en la minería de datos y el análisis de series de tiempo: http://www.dice.ucl.ac.be/~verle…

ML de datos de alta intensidad, ANN local y la maldición de la dimensionalidad:
http://www.dice.ucl.ac.be/~verle…

1) Si está trabajando en la dimensión d y desea mantener la distancia entre muestras espaciadas uniformemente en el cubo de la unidad tan baja como ε, entonces el número de muestras que necesita es n = (1 / ε) ^ d. Tenga en cuenta que aumenta exponencialmente con la dimensión d.

Trevor Hastie le da a este un buen tratamiento en Elementos de aprendizaje estadístico . Digamos que su conjunto de datos consta de 10,000 puntos en R ^ 100, muestreados con un Gaussiano estándar, esférico de 100 dimensiones. Tome un punto de datos al azar. Su norma seguirá una distribución de chi-cuadrado con 100 df, por lo que tendrá una longitud de aproximadamente 10. Proyecte los otros 9,999 puntos en la línea definida por el vector de ese punto. Tendrán una distribución normal con una desviación estándar de 1 (Hastie lo demuestra). Esto significa que cada punto de datos se ve a sí mismo como un evento de 10 sigma. Esa es una rareza extrema (1 en aproximadamente 10 ^ 23). Recuerde que esto se aplica a cualquier punto del conjunto de datos.

El problema con el que se encuentra en altas dimensiones no es solo que se necesita una gran cantidad (exponencialmente grande) de puntos para llenar los subcubos. Es que la “cercanía” deja de tener sentido y que cada punto se convierte en un valor extremo en sus propios términos. Con datos del mundo real, la métrica de distancia “correcta” casi seguramente no es la euclidiana y, en espacios de alta dimensión, no es trivial descubrir cuál debería ser la métrica correcta.

Realmente depende Cuando intenta evaluar el ángulo sólido de un símplex en N dimensiones, obtiene algo de que el volumen de la forma está entre 1 y sqrt {N / 4} del politopo cruzado de ejes unitarios. Ahora podemos poner una forma de volumen 1 completamente dentro, que se encuentra dentro del 3% de la superficie. También sabemos que el límite inferior es convexo (es decir, si x> y entonces f (x)> f (y), etc.), por lo que es definitivamente más grande que 4/3 en ocho dimensiones y 8/5 en veinticuatro dimensiones. Pero para 124 dimensiones, está en algún lugar entre 1.6 y digamos, 5.5 tegum-radianes. Pero la esfera dentro del 97% del radio solo tiene 1 radio tegum o menos.

More Interesting

¿Cómo analizan los algoritmos de aprendizaje automático y los algoritmos basados ​​en léxico las palabras coloquiales en un análisis de sentimientos de Twitter?

¿Cuáles son las herramientas basadas en redes neuronales disponibles ahora para el consumidor?

¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?

¿Qué programa de maestría de aprendizaje automático en UCL debería elegir?

Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

¿Cuál es el mejor marco de aprendizaje profundo para Apache Spark?

¿Cuáles son algunos puntos de referencia significativos descubiertos para el equilibrio de la máquina? (específicamente: clasificación, segmentación y desarrollos de sensores)

¿Cómo funciona la función softmax en el campo AI?

¿Qué redes neuronales se han diseñado para leer los labios?

¿Se pueden usar las redes neuronales para resolver problemas de aprendizaje no supervisados?

¿Cuál es la relación entre física y aprendizaje automático / IA?

¿Cuál es el mejor software para implementar algoritmos de aprendizaje automático / minería de datos a gran escala?

¿Cuáles son algunas bibliotecas de software para el aprendizaje a gran escala?

¿Cuáles son los grandes problemas en la inferencia variacional?

¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?