¿Existe una relación entre el aprendizaje múltiple y el análisis de datos topológicos?

El análisis de datos topológicos y el aprendizaje múltiple son dos formas de describir la geometría de una nube de puntos, pero difieren en sus supuestos, entradas, objetivos y resultados.

El aprendizaje múltiple supone que los datos se encuentran en un submanifold dimensional (generalmente bajo) y tiene como objetivo crear una representación que registre fielmente esta estructura de vecindario local dada en el múltiple. Algunos métodos de ejemplo incluyen MDS e Isomap, pero también técnicas que toman nubes de puntos y producen triangulaciones uniformes (como una triangulación de Delaunay). Resumiría los supuestos necesarios para el aprendizaje múltiple como algo similar a “las restricciones del problema son localmente uniformes y suaves” y en el contexto de los datos también puede requerir restricciones en la uniformidad del muestreo.

TDA, que considero que es principalmente una homología persistente y el algoritmo del mapeador, hace muy pocos supuestos sobre los datos y el objetivo no es reconstruir fielmente los datos, o ajustar los datos a un modelo, sino proporcionar resúmenes (imparciales) de la estructura geométrica / topológica en los datos.

La homología persistente y el mapeador toman como entradas algún tipo de “espacio” (un complejo simplicial o un espacio métrico, pero hay una variedad de puntos de partida para ambos) y ambos usan una función para crear un resumen. Para Mapper, el resumen es (en términos generales) una grabación de la conectividad de las fibras de la función, mientras que para la homología persistente es la relación entre la homología de los conjuntos de subniveles de la función. La elección de la función de filtro le permite consultar los datos de muchas maneras diferentes y producir muchos resúmenes de diferentes aspectos de los datos. Esencialmente no se requieren suposiciones de los datos. La salida es un “código de barras” para homología persistente o un complejo simplicial en el caso del mapeador. El punto principal aquí es que para crear tal resumen se necesita muy poco más allá de alguna noción de similitud o proximidad en sus datos.

Puede buscar en quora o youtube para encontrar información detallada sobre _por qué_ estos son resúmenes útiles.

En mi experiencia, la suposición múltiple es bastante fuerte y fuera de los contextos científicos no se han encontrado conjuntos de datos que parezcan múltiples. Dicho esto, hay un ejemplo en el que he visto todos los métodos anteriores aplicados: el espacio de configuración del ciclo-octano. Este es un conjunto de datos que se estudió utilizando isomap, técnicas de triangulación, homología persistente y mapeador, y es instructivo comparar los diferentes resultados.

Aquí hay una discusión de varios métodos de aprendizaje múltiples y lo que yo llamaría topología “clásica”:

http://www.ncbi.nlm.nih.gov/pmc/…

Reducción de dimensionalidad algorítmica para análisis de estructura molecular.

Una cosa a tener en cuenta es que en el lugar de los puntos que no eran múltiples, se requería información detallada de exactamente cómo no eran múltiples para adaptarse al modelo. En este problema, podría obtener esa información razonando a partir de los primeros principios, pero en muchos problemas de datos modernos, espero que este tipo de análisis basado en el primer principio esté completamente fuera del alcance.

Aquí hay un fragmento de video donde puede ver el mismo conjunto de datos procesado con el asignador (disculpas por la autopromoción):

En este caso, la salida del mapeador recupera información similar a la triangulación de Delaunay pero con menos suposiciones / conocimiento de entrada.

No, en realidad no existe una relación entre los dos, a menos que uno use un aprendizaje múltiple para reducir la dimensionalidad antes de aplicar métodos de análisis de datos topológicos. TDA se enfoca en identificar características globales dentro de los datos, mientras que el aprendizaje múltiple se enfoca en reducir la dimensionalidad al encontrar un buen mapa de los datos a un múltiple de baja dimensión, que puede no ser euclidiano (como se supone en PCA).

El análisis de datos topológicos podría ser útil para analizar datos (múltiples) antes y después de la reducción de la dimensionalidad (es decir, el aprendizaje múltiple). La topología de la variedad debe ser la misma e independiente de la dimensionalidad del espacio ambiental. Ver, por ejemplo, nuestro artículo “Un estudio sobre la validación de la reducción de la dimensionalidad no lineal utilizando homología persistente” https://doi.org/10.1016/j.patrec

More Interesting

¿Dónde está el "YouTube" de la computación humana gratuita?

¿Es necesaria una sólida formación en informática para realizar investigaciones en informática teórica?

¿Por qué alguien querría ser profesor en lugar de trabajar en Microsoft Research? El beneficio más obvio es que puedes enseñar, pero ¿hay otros beneficios?

¿Sabemos si la factorización es más difícil que el isomorfismo gráfico?

¿Google acelera el lanzamiento de la investigación de aprendizaje profundo?

¿Cómo se puede seguir el Karma Yoga en el campo de la informática?

Visión por computadora: ¿cuáles de los temas son necesarios antes de hacer un proyecto en opencv?

¿Qué habilidades prácticas debe aprender un aspirante a investigador de aprendizaje automático (Linux, computación paralela, GPU, etc.)?

¿Qué se debe hacer para convertirse en un buen investigador en informática? ¿Cuáles deberían ser los principios básicos para ser un buen investigador?

¿Cuáles son los límites en la complejidad computacional de algunos de los problemas más importantes?

¿Cuáles son algunos de los algoritmos más importantes?

¿Qué programa es mejor: UT Dallas o la Universidad de Edimburgo para una pista ML / NLP?

¿Cuál sería un buen proyecto de tesis de licenciatura en informática (pregrado)?

¿Es una buena idea hablar de aspiraciones de investigación interdisciplinarias en mi Declaración de Propósito?

¿Cuáles son algunos de los temas que combinarían temas de informática y biología?