¿Cuál es la maldición de la dimensionalidad?

El uso del término “maldición de la dimensionalidad” en el aprendizaje automático se relaciona con el hecho de que uno puede imaginar fácilmente una función objetivo (que debe aprenderse) que es muy no uniforme, por ejemplo, que tiene un número exponencial de modos (altibajos) ), con respecto a la dimensionalidad (el número de variables de entrada escalares). Imagine que para producir una buena predicción, nuestro alumno necesita distinguir (producir una respuesta sustancialmente diferente) entre 10 valores diferentes de cada una de las n variables. Entonces puede ser necesario distinguir entre 10 ^ n configuraciones diferentes del vector n-dimensional de entrada. Con n fácilmente en los cientos, miles o más, esto es mucho más que la cantidad de ejemplos que uno puede esperar reunir (o incluso la cantidad de átomos en el universo). Con la mayoría de los algoritmos de aprendizaje, y en particular con los algoritmos de aprendizaje no paramétricos clásicos (p. Ej., Vecino más cercano, Parzen, SVM de kernel gaussiano, proceso gaussiano de kernel gaussiano, etc.) el alumno necesitará ver al menos un ejemplo para cada uno de estos muchos configuraciones (al menos tantas como sea necesario para cubrir todas las variaciones de configuraciones de interés), con el fin de producir una respuesta correcta en torno a cada una de estas configuraciones, una que sea diferente del valor objetivo requerido para otras configuraciones cercanas.

Sin embargo, la verdadera dificultad no está en la dimensionalidad, sino en la complejidad (número de modos, número de subidas y bajadas, número de regiones diferentes en el espacio de entrada que deben distinguirse) de la función objetivo a aprender. Una imagen de dígitos puede tener 32 × 32 = 1024 píxeles de nivel de gris de entrada, pero puede ser que la función que uno necesita aprender (por ejemplo, un clasificador para distinguir entre 3 y 4) puede ser muy suave (de hecho, un clasificador lineal ya funcionará) un trabajo razonable, en este caso). Si hay una llamada variedad (región de dimensión inferior) cerca de la cual se congregan los ejemplos, entonces la dimensionalidad real de interés puede ser mucho menor que el número de variables de entrada. Pero incluso si la función objetivo se puede capturar en un múltiple de baja dimensión, lo que realmente importa es cuánto varía en ese múltiple, es decir, el número de regiones diferentes que deben distinguirse, porque esto corresponderá al número de entrenamiento ejemplos necesarios para lograr un buen rendimiento, cuando se utiliza un alumno local no paramétrico estándar (como el anterior).

Por otro lado, incluso si la función de destino es aparentemente muy compleja (por ejemplo, se debe distinguir una gran cantidad de configuraciones vecinas), ya sea en una dimensión alta o baja, aún es posible generalizar bien a partir de un número razonablemente pequeño de ejemplos de entrenamiento, siempre y cuando esta aparente complejidad esté realmente organizada. Si estos altibajos tienen alguna estructura (lo más simple que se le ocurre son las repeticiones del mismo patrón), entonces algunos algoritmos de aprendizaje pueden captar eso. Para que esto suceda, el algoritmo de aprendizaje debe ser capaz de generalizar de manera no local, incluso a regiones no “cubiertas” por ejemplos de capacitación, lejos de los ejemplos de capacitación. Por lo tanto, una pregunta de investigación interesante es preguntar en qué medida algunos algoritmos tienen o no el potencial de generalizarse de esta manera no local. Se cree que los algoritmos de aprendizaje profundo tienen ese potencial. Vea mi artículo con Yann LeCun titulado ” Escalando algoritmos de aprendizaje hacia la IA”, http://www.iro.umontreal.ca/~lis….

La maldición de la dimensionalidad se refiere a cómo ciertos algoritmos de aprendizaje pueden funcionar mal en datos de alta dimensión.

Digamos que está haciendo un muestreo de rechazo, y el espacio muestral tiene n dimensiones. Además, digamos que el límite superior que elegimos para el muestreo de rechazo es bastante mediocre, y aproximadamente 0.9 de las muestras están dentro del objetivo para esa dimensión.

Desafortunadamente, aceptamos aproximadamente [matemática] 0.9 ^ n [/ matemática] de nuestras muestras en general ya que las muestras aceptadas deben estar dentro del objetivo para todas las dimensiones. ¡El número total de muestras se escala exponencialmente con las dimensiones de los datos! Eso significa que podríamos ser muy ineficientes ya que podríamos rechazar muchas muestras.

Este es un ejemplo de la maldición de la dimensionalidad (que encontré más fácil de explicar de manera concisa). Muchos otros algoritmos de IA también funcionan mal en altas dimensiones. Metrópolis-Hastings, por ejemplo, también sufre, ya que es difícil encontrar una distribución de salto que funcione bien para todas las dimensiones. La agrupación de K significa que también sufre en las dimensiones altas, especialmente si muchas de las dimensiones son irrelevantes para los límites de agrupación ideales y solo agregan ruido a la agrupación.

La alta dimensionalidad dificulta la agrupación, porque tener muchas dimensiones significa que todo está “muy lejos” el uno del otro. Es difícil saber qué significa la verdadera distancia cuando tienes tantas dimensiones. Es por eso que a menudo es útil realizar PCA para reducir la dimensionalidad antes de la agrupación.

La alta dimensionalidad también es una maldición cuando uno intenta hacer un muestreo de rechazo. Con una distribución de probabilidad de mayor dimensión, cada vez es más difícil encontrar una distribución envolvente apropiada, ya que la probabilidad de aceptación seguirá disminuyendo con la dimensionalidad.

(respuesta derivada de una conversación aleatoria con Lexi Ross y Matthew Warshauer)

More Interesting

¿Cómo se utiliza el aprendizaje automático en el análisis de sentimientos?

¿Cómo puede una red neuronal convolucional aprender características invariables?

Además de las redes neuronales profundas, ¿existen antecedentes para cálculos largos con una inferencia máxima a posteriori eficiente?

¿Qué clases de modelos se pueden usar para predecir distribuciones de series de tiempo?

¿Qué tan bueno es el programa de maestría en visión por computadora de la Universidad Autónoma de Barcelona en términos de contenido, costo y futura carrera (directamente trabajo o doctorado)?

Cómo elegir el parámetro C para SVM

¿Cuál es la diferencia entre análisis de datos, ciencia de datos, big data y aprendizaje automático?

¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?

¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?

¿Cuál es el significado de muchas sinapsis entre dos neuronas en la red neuronal?

¿Qué debo tomar Machine Learning o realidad aumentada?

¿Qué significa 'regresión' en estadística y aprendizaje automático?

¿Las imágenes captcha perderían su importancia si las técnicas de procesamiento de imágenes pudieran reconocer a los personajes automáticamente?

Yoshua Bengio: ¿Cómo funcionan los modelos de lenguaje neural?

Cuando la gente dice que la inteligencia artificial destruirá a la raza humana, ¿es que alguien los programará para que estén predispuestos a no gustarle la vida orgánica, o que de alguna manera adquirirán naturalmente las mismas emociones o algoritmos que lo llevan a uno a matar?