MLconf 2015 Seattle: ¿Cómo puede usar la topología para abordar los problemas de aprendizaje automático?

La topología es el estudio y la descripción de la forma. En los problemas de Big Data, la forma surge porque tiene una noción de similitud o distancia entre los puntos de datos. Esto puede ser algo como la distancia euclidiana, correlaciones, una distancia gráfica ponderada o incluso algo más esotérico. La forma se explota en el aprendizaje automático aportando información adicional como “mis datos tienen grupos o clases bien definidos”, “este resultado es lineal”, “mi señal es periódica”. Luego usaría herramientas especializadas para aplicar modelos basados ​​en esta información.

La hipótesis sobre el modelo apropiado es en realidad una hipótesis sobre la forma de los datos. Si elige un modelo lineal, entonces está diciendo que los datos tienen la forma de un subespacio lineal, un modelo que mide la periodicidad dice que los datos se encuentran en un “bucle” y el agrupamiento dice que los datos tienen piezas bien definidas, todas las descripciones de forma.

No hay una enumeración de todas las formas posibles y pueden aparecer muchos “tipos” diferentes de formas en un solo conjunto de datos: puede tener una región donde hay un comportamiento periódico mientras que otras partes de los datos se dividen en grupos claros. En conjuntos de datos complejos de alta dimensión es imposible hacer una hipótesis de la forma subyacente de los datos y, lo que es peor, puede ser difícil incluso detectar si ha elegido un modelo incorrecto.

La topología agrega la capacidad de comprender y describir la forma sin imponer información adicional del modelo, que puede ser sesgada y engañosa. Esto conduce a una serie de beneficios concretos, como la mejora del modelo predictivo y una mejor comprensión de sus datos.

Esto parece un punto trivial, pero puede ser clave para resolver problemas complejos con un alto grado de precisión. Un ejemplo simple de esto proviene de los modelos predictivos de hospitales. Los hospitales quieren medir qué tan enfermas están las personas y recopilar una variedad de información clínica (presión arterial, frecuencia cardíaca, temperatura, frecuencia respiratoria, niveles de oxígeno, etc.) o información genética (niveles de expresión génica). Por lo general, se ajustan a un modelo de regresión lineal que predice qué tan “enfermos” están los pacientes. La suposición subyacente es que existe una relación casi lineal entre los síntomas y la “enfermedad”.

David Schneider, investigador de la Escuela de Medicina de Stanford, tomó datos de expresión génica para personas en diferentes etapas de la malaria. Cuando se examinó con TDA, encontró a todos los pacientes acostados en un círculo sentados dentro de un espacio de alta dimensión (~ 1000 características). Si bien, en retrospectiva, el círculo es obvio, su camino desde la salud hasta la enfermedad y de regreso a la salud no rastrea el mismo conjunto de síntomas y, sin embargo, nadie había pensado en buscar el círculo.

La mayoría de los conjuntos de datos del mundo real que miro son más grandes y más complicados que este ejemplo y encontramos una variedad de estructuras (agrupación, destellos, bucles y estructuras de dimensiones superiores) que aparecen en un solo conjunto de datos. Es casi imposible adivinar o hipotetizar las estructuras correctas con anticipación, y TDA es una herramienta para comprender sus datos de manera imparcial.

Los detalles de cómo incluir información topológica mientras se construye un modelo son técnicos y están más allá del alcance de esta respuesta.

Esta es una respuesta modificada de una entrevista de tres partes que hice con kdnuggets que puede encontrar aquí: Entrevista: Anthony Bak, Ayasdi sobre la gestión de la complejidad de los datos a través de la topología

El análisis de datos topológicos utiliza conceptos clave de la topología algebraica para comprender los datos, ya sea a través de visualización, agrupación o regresión por partes (consulte https://www.slideshare.net/Colle …). Se puede usar solo o combinado con algoritmos de aprendizaje automático (como reducción de dimensionalidad o prueba de hipótesis). La topología en general se puede utilizar para extender los métodos estadísticos a situaciones en las que no se cumplen sus supuestos (como el análisis factorial).

Aquí tengo un tutorial de Quora que explica algunos de los usos de la topología en el aprendizaje automático: una introducción y una lista de recursos para el análisis de datos topológicos por Colleen Farrelly por Colleen Farrelly en informática

More Interesting

¿Debo hacer un master en ciencia de datos o ir a un campo de entrenamiento?

Al preparar el conjunto de datos para el aprendizaje automático supervisado, ¿hay alguna otra forma que no sea etiquetar manualmente el conjunto de datos de entrenamiento?

Cómo aprender análisis de big data en línea

¿Cuáles son los desafíos en el procesamiento de grandes cantidades de datos (2017)?

¿Cuáles son algunos buenos libros de texto en selección / ingeniería de características al construir algoritmos de aprendizaje automático?

Tengo 7 años de experiencia en análisis y ciencia de datos. ¿Vale la pena hacer PGPBA de Greatlakes o IIMB o CBA de ISB?

¿Cuáles son las habilidades necesarias para la ciencia de datos?

¿Cuál es la correlación entre PNL, IA, aprendizaje automático, big data y ciencia de datos? ¿Existe una jerarquía o algo en común entre estos? ¿Cómo se relacionan estos problemas con el mundo real?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

¿Qué es más preferible en el aprendizaje automático, la precisión del modelo A es del 50% en los datos de entrenamiento y del 97% en los datos de las pruebas, o el modelo B tiene una precisión del 80% en los datos del tren y el 75% en los datos de las pruebas? (Más detalles en el comentario abajo) gracias!

¿Qué tipo de cosas debería aprender a ser un analista de datos más reciente?

(MS en ciencia de datos) VS. (Maestría en certificación CS + en ciencia de datos), ¿qué ruta es mejor?

¿Cuál es la mejor página web / software para hacer infografías para informes de ciencia de datos?

¿Cómo debo diseñar mi curso en visión artificial / aprendizaje automático / robótica para mi maestría en EE?

¿Por qué necesitamos Python cuando R es tan brillante para el aprendizaje automático y la ciencia de datos?