MLconf 2015 Seattle: ¿Cómo puede usar la topología para abordar los problemas de aprendizaje automático? La tecnología cambia la vida futura

La topología es el estudio y la descripción de la forma. En los problemas de Big Data, la forma surge porque tiene una noción de similitud o distancia entre los puntos de datos. Esto puede ser algo como la distancia euclidiana, correlaciones, una distancia gráfica ponderada o incluso algo más esotérico. La forma se explota en el aprendizaje automático aportando información adicional como “mis datos tienen grupos o clases bien definidos”, “este resultado es lineal”, “mi señal es periódica”. Luego usaría herramientas especializadas para aplicar modelos basados en esta información.

La hipótesis sobre el modelo apropiado es en realidad una hipótesis sobre la forma de los datos. Si elige un modelo lineal, entonces está diciendo que los datos tienen la forma de un subespacio lineal, un modelo que mide la periodicidad dice que los datos se encuentran en un “bucle” y el agrupamiento dice que los datos tienen piezas bien definidas, todas las descripciones de forma.

No hay una enumeración de todas las formas posibles y pueden aparecer muchos “tipos” diferentes de formas en un solo conjunto de datos: puede tener una región donde hay un comportamiento periódico mientras que otras partes de los datos se dividen en grupos claros. En conjuntos de datos complejos de alta dimensión es imposible hacer una hipótesis de la forma subyacente de los datos y, lo que es peor, puede ser difícil incluso detectar si ha elegido un modelo incorrecto.

La topología agrega la capacidad de comprender y describir la forma sin imponer información adicional del modelo, que puede ser sesgada y engañosa. Esto conduce a una serie de beneficios concretos, como la mejora del modelo predictivo y una mejor comprensión de sus datos.

Esto parece un punto trivial, pero puede ser clave para resolver problemas complejos con un alto grado de precisión. Un ejemplo simple de esto proviene de los modelos predictivos de hospitales. Los hospitales quieren medir qué tan enfermas están las personas y recopilar una variedad de información clínica (presión arterial, frecuencia cardíaca, temperatura, frecuencia respiratoria, niveles de oxígeno, etc.) o información genética (niveles de expresión génica). Por lo general, se ajustan a un modelo de regresión lineal que predice qué tan “enfermos” están los pacientes. La suposición subyacente es que existe una relación casi lineal entre los síntomas y la “enfermedad”.

David Schneider, investigador de la Escuela de Medicina de Stanford, tomó datos de expresión génica para personas en diferentes etapas de la malaria. Cuando se examinó con TDA, encontró a todos los pacientes acostados en un círculo sentados dentro de un espacio de alta dimensión (~ 1000 características). Si bien, en retrospectiva, el círculo es obvio, su camino desde la salud hasta la enfermedad y de regreso a la salud no rastrea el mismo conjunto de síntomas y, sin embargo, nadie había pensado en buscar el círculo.

La mayoría de los conjuntos de datos del mundo real que miro son más grandes y más complicados que este ejemplo y encontramos una variedad de estructuras (agrupación, destellos, bucles y estructuras de dimensiones superiores) que aparecen en un solo conjunto de datos. Es casi imposible adivinar o hipotetizar las estructuras correctas con anticipación, y TDA es una herramienta para comprender sus datos de manera imparcial.

Los detalles de cómo incluir información topológica mientras se construye un modelo son técnicos y están más allá del alcance de esta respuesta.

Esta es una respuesta modificada de una entrevista de tres partes que hice con kdnuggets que puede encontrar aquí: Entrevista: Anthony Bak, Ayasdi sobre la gestión de la complejidad de los datos a través de la topología

Aprendizaje automáticoCiencia deCiencias de la computacióndatosInteligencia ArtificialSolución de problemasTopología