¿Existe una relación entre el aprendizaje múltiple y el análisis de datos topológicos? La tecnología cambia la vida futura

El análisis de datos topológicos y el aprendizaje múltiple son dos formas de describir la geometría de una nube de puntos, pero difieren en sus supuestos, entradas, objetivos y resultados.

El aprendizaje múltiple supone que los datos se encuentran en un submanifold dimensional (generalmente bajo) y tiene como objetivo crear una representación que registre fielmente esta estructura de vecindario local dada en el múltiple. Algunos métodos de ejemplo incluyen MDS e Isomap, pero también técnicas que toman nubes de puntos y producen triangulaciones uniformes (como una triangulación de Delaunay). Resumiría los supuestos necesarios para el aprendizaje múltiple como algo similar a “las restricciones del problema son localmente uniformes y suaves” y en el contexto de los datos también puede requerir restricciones en la uniformidad del muestreo.

TDA, que considero que es principalmente una homología persistente y el algoritmo del mapeador, hace muy pocos supuestos sobre los datos y el objetivo no es reconstruir fielmente los datos, o ajustar los datos a un modelo, sino proporcionar resúmenes (imparciales) de la estructura geométrica / topológica en los datos.

La homología persistente y el mapeador toman como entradas algún tipo de “espacio” (un complejo simplicial o un espacio métrico, pero hay una variedad de puntos de partida para ambos) y ambos usan una función para crear un resumen. Para Mapper, el resumen es (en términos generales) una grabación de la conectividad de las fibras de la función, mientras que para la homología persistente es la relación entre la homología de los conjuntos de subniveles de la función. La elección de la función de filtro le permite consultar los datos de muchas maneras diferentes y producir muchos resúmenes de diferentes aspectos de los datos. Esencialmente no se requieren suposiciones de los datos. La salida es un “código de barras” para homología persistente o un complejo simplicial en el caso del mapeador. El punto principal aquí es que para crear tal resumen se necesita muy poco más allá de alguna noción de similitud o proximidad en sus datos.

Puede buscar en quora o youtube para encontrar información detallada sobre _por qué_ estos son resúmenes útiles.

En mi experiencia, la suposición múltiple es bastante fuerte y fuera de los contextos científicos no se han encontrado conjuntos de datos que parezcan múltiples. Dicho esto, hay un ejemplo en el que he visto todos los métodos anteriores aplicados: el espacio de configuración del ciclo-octano. Este es un conjunto de datos que se estudió utilizando isomap, técnicas de triangulación, homología persistente y mapeador, y es instructivo comparar los diferentes resultados.

Aquí hay una discusión de varios métodos de aprendizaje múltiples y lo que yo llamaría topología “clásica”:

http://www.ncbi.nlm.nih.gov/pmc/…

Reducción de dimensionalidad algorítmica para análisis de estructura molecular.

Una cosa a tener en cuenta es que en el lugar de los puntos que no eran múltiples, se requería información detallada de exactamente cómo no eran múltiples para adaptarse al modelo. En este problema, podría obtener esa información razonando a partir de los primeros principios, pero en muchos problemas de datos modernos, espero que este tipo de análisis basado en el primer principio esté completamente fuera del alcance.

Aquí hay un fragmento de video donde puede ver el mismo conjunto de datos procesado con el asignador (disculpas por la autopromoción):

En este caso, la salida del mapeador recupera información similar a la triangulación de Delaunay pero con menos suposiciones / conocimiento de entrada.

Análisis de datosAprendizaje automáticoCiencia de datosinvestigación en informáticaPregunta de existenciaTopología