¿Hay alguna prueba matemática para garantizar que la suposición múltiple es verdadera, es decir, que cualquier punto de datos en un espacio de alta dimensión se encuentra en una variedad de baja dimensión incrustada en ese espacio?

La suposición de que los datos se encuentran en una variedad es una suposición ; no puede probar una suposición; de lo contrario, sería un teorema, no una suposición.

En cualquier caso, el supuesto múltiple no puede ser siempre cierto por una simple razón. Si lo fuera, podríamos tomar un conjunto arbitrario de puntos N-dimensionales y concluir que se encuentran en una variedad M-dimensional (donde M <N). Entonces podríamos tomar esos puntos M-dimensionales y concluir que se encuentran en otra variedad de dimensiones más bajas (con, por ejemplo, K dimensiones, donde K <M). Podríamos repetir este proceso indefinidamente y eventualmente concluir que nuestro conjunto de datos N-dimensional arbitrario se encuentra en una variedad 1-D. Como esto no puede ser cierto para todos los conjuntos de datos, la suposición múltiple no siempre puede ser verdadera. En general, si tiene puntos N-dimensionales generados por un proceso con N grados de libertad, sus datos no estarán en una variedad de dimensiones más bajas.

Con respecto a lo que sucede si no se cumple el supuesto, depende del algoritmo. Tendría que echar un vistazo a sus propiedades particulares. En general, puede esperar que los algoritmos produzcan incrustaciones que no preserven adecuadamente la propiedad relevante del conjunto de datos que les interesa. ISOMAP, por ejemplo, calcularía incrustaciones que no preserven adecuadamente las distancias geodésicas en el espacio de alta dimensión.

Un resultado formal relacionado que puede interesarle es el lema de Johnson-Lindenstrauss. Este lema dice que cualquier conjunto de datos de alta dimensión se puede proyectar aleatoriamente en un espacio euclidiano de menor dimensión mientras se conservan las distancias entre pares entre puntos. El número de dimensiones necesarias para garantizar este resultado depende de cuántos puntos esté proyectando hacia abajo y de qué tan bien desea preservar las distancias por pares. Para más detalles, vea el lema de Johnson-Lindenstrauss. En cualquier caso, tenga en cuenta que este resultado solo dice que puede construir una nueva representación diferente de menor dimensión de su conjunto de datos, lo que le permite preservar una propiedad en particular. Para empezar, no implica que el conjunto de datos original se haya limitado necesariamente a una variedad de dimensiones inferiores.

Es una suposición y esencial para todos esos métodos. Si su múltiple no se encuentra en un espacio de menor dimensión, no va a utilizar métodos de reducción de dimensionalidad. Dicho esto, hay buena evidencia de que muchos problemas en big data realmente se encuentran en espacios de dimensiones inferiores y que la reducción de dimensionalidad es efectiva. Es discutible si son euclidianos o no euclidianos (sin embargo, algunas pruebas contra los no euclidianos en la práctica) …

Hay un documento reciente sobre el arXiv que aborda esta pregunta:
Prueba de la hipótesis del múltiple
Charles Fefferman, Sanjoy Mitter, Hariharan Narayanan
http://arxiv.org/abs/1310.0425
Ver también el trabajo anterior de Narayanan.

Enhebre una ruta a través de cada punto a su vez y tendrá una variedad unidimensional que contiene los puntos.

Bueno, DARPA seguramente está interesado en eso.