¿Hay alguna prueba matemática para garantizar que la suposición múltiple es verdadera, es decir, que cualquier punto de datos en un espacio de alta dimensión se encuentra en una variedad de baja dimensión incrustada en ese espacio?

La suposición de que los datos se encuentran en una variedad es una suposición ; no puede probar una suposición; de lo contrario, sería un teorema, no una suposición.

En cualquier caso, el supuesto múltiple no puede ser siempre cierto por una simple razón. Si lo fuera, podríamos tomar un conjunto arbitrario de puntos N-dimensionales y concluir que se encuentran en una variedad M-dimensional (donde M <N). Entonces podríamos tomar esos puntos M-dimensionales y concluir que se encuentran en otra variedad de dimensiones más bajas (con, por ejemplo, K dimensiones, donde K <M). Podríamos repetir este proceso indefinidamente y eventualmente concluir que nuestro conjunto de datos N-dimensional arbitrario se encuentra en una variedad 1-D. Como esto no puede ser cierto para todos los conjuntos de datos, la suposición múltiple no siempre puede ser verdadera. En general, si tiene puntos N-dimensionales generados por un proceso con N grados de libertad, sus datos no estarán en una variedad de dimensiones más bajas.

Con respecto a lo que sucede si no se cumple el supuesto, depende del algoritmo. Tendría que echar un vistazo a sus propiedades particulares. En general, puede esperar que los algoritmos produzcan incrustaciones que no preserven adecuadamente la propiedad relevante del conjunto de datos que les interesa. ISOMAP, por ejemplo, calcularía incrustaciones que no preserven adecuadamente las distancias geodésicas en el espacio de alta dimensión.

Un resultado formal relacionado que puede interesarle es el lema de Johnson-Lindenstrauss. Este lema dice que cualquier conjunto de datos de alta dimensión se puede proyectar aleatoriamente en un espacio euclidiano de menor dimensión mientras se conservan las distancias entre pares entre puntos. El número de dimensiones necesarias para garantizar este resultado depende de cuántos puntos esté proyectando hacia abajo y de qué tan bien desea preservar las distancias por pares. Para más detalles, vea el lema de Johnson-Lindenstrauss. En cualquier caso, tenga en cuenta que este resultado solo dice que puede construir una nueva representación diferente de menor dimensión de su conjunto de datos, lo que le permite preservar una propiedad en particular. Para empezar, no implica que el conjunto de datos original se haya limitado necesariamente a una variedad de dimensiones inferiores.

Aprendizaje automáticoinformáticaInformática teóricaMatemáticas y Aprendizaje automáticoPregunta de existencia