El espacio dimensional alto tiene algunas propiedades no intuitivas. Imagine dos esferas con el mismo centro, una con radio 1 y la otra con radio 0.9. ¿Qué tan grandes son estas esferas entre sí? En dos dimensiones su relación es pi * 0.9 ^ 2 / pi * 1 ^ 2 = 0.81. Entonces, la esfera más pequeña tiene un 81% del área de la más grande. En tres dimensiones la respuesta es 72,9%. Esto disminuye exponencialmente para dimensiones más altas. ¡Esto significa que en grandes dimensiones, una esfera tiene la mayor parte de su volumen justo al lado de su caparazón!
Esta es la razón por la cual, como usted dice, los puntos de muestra se encuentran cerca de la superficie. No es por diseño sino simplemente una consecuencia de los puntos de muestra que se distribuyen uniformemente en el espacio de alta dimensión.
‘La pelota’ es solo una esfera definida arbitrariamente, por lo que los resultados aún se mantienen si cambia la posición de la pelota pero mantiene los puntos de muestra en el mismo lugar. No está relacionado con el origo del sistema de coordenadas en el que está trabajando y no significa que cualquier lugar en el espacio de alta dimensión sea más difícil de hacer predicciones que cualquier otro. Entonces la respuesta precisa a su pregunta es no .
- ¿Existe alguna justificación para usar características explícitas de usuario / elemento en la recomendación de MF?
- ¿Tiene alguna implementación de clasificación de una clase utilizando la red neuronal?
- ¿Puedo tomar el curso de aprendizaje automático de Andrew Ng siendo un estudiante de secundaria con algo de experiencia en programación y sin conocimientos avanzados de matemáticas?
- ¿Existe un libro de aprendizaje automático que ofrece una guía paso a paso con números reales o ejemplos numéricos en algoritmos de aprendizaje automático?
- ¿Qué es mejor para una implementación de juego de 20 preguntas, redes neuronales o árboles de decisión?
En cuanto a las consecuencias para el aprendizaje automático, hay un efecto relacionado en las altas dimensiones que tocó su pregunta: tome un cubo con longitudes 1, el ‘cubo de la unidad’ y distribuya n puntos de muestra de manera uniforme dentro de él. ¿Cuál es la distancia promedio entre puntos de muestra? Esta distancia aumenta a medida que aumenta la dimensionalidad, por lo que cualquier método que se base en que los puntos de muestra sean ‘suficientemente densos’ podría tener problemas. Incluyendo la interpolación que mencionas. (1) Reinterpretando su pregunta, por lo tanto, otra respuesta podría ser: ‘El origen de la pelota está a una distancia de 1 de la superficie, pero en un espacio dimensional alto, los puntos de muestra están muy lejos el uno del otro de todos modos. Así que no, la interpolación y la extrapolación son igual de peligrosas en todas partes ‘.
Michel Verleysen analiza las consecuencias para el aprendizaje automático y la minería de datos en los siguientes documentos:
La maldición de la dimensionalidad en la minería de datos y el análisis de series de tiempo: http://www.dice.ucl.ac.be/~verle…
ML de datos de alta intensidad, ANN local y la maldición de la dimensionalidad:
http://www.dice.ucl.ac.be/~verle…
1) Si está trabajando en la dimensión d y desea mantener la distancia entre muestras espaciadas uniformemente en el cubo de la unidad tan baja como ε, entonces el número de muestras que necesita es n = (1 / ε) ^ d. Tenga en cuenta que aumenta exponencialmente con la dimensión d.