¿Cómo escapa / resiste una red neuronal profunda a la maldición de la dimensionalidad?

La maldición de la dimensionalidad normalmente se produce porque en los datos hay características relevantes y demasiadas irrelevantes (ruido). Las neuronas en las arquitecturas de aprendizaje profundo (DL) utilizan muchos datos para modelar un problema y, por lo tanto, un sistema DL reduce la influencia de las características irrelevantes al tiempo que aumenta la influencia de las características relevantes durante el aprendizaje.

Permítanme explicar esto un poco más al centrarme en una sola unidad de procesamiento (neurona).

Dado un vector de características de alta dimensión sin procesar [math] v [/ math],

[matemáticas] v = [v_1, v_2,…, v_n] [/ matemáticas]

Para [matemática] n [/ matemática] = número muy grande como una imagen [matemática] n = ancho × alto [/ matemática]

Sabemos que la información real existe en un espacio dimensional mucho más bajo que [math] n [/ math]. Es por eso que la reducción de dimensionalidad funciona bien porque elimina la maldición de la dimensionalidad al proyectar los datos en un espacio representacional relevante mucho más bajo. El proceso de aprendizaje en algoritmos de aprendizaje automático (ML) encuentra un espacio de representación dimensional más pequeño en el gran vector bruto [math] v [/ math].

Para simplificar, considere un solo nodo

[matemáticas] y = \ varphi (\ sum_ {i = 1} ^ {n} v_ {i} w_ {i} + b) [/ matemáticas]

El nodo toma una decisión sopesando cada característica [math] v_ {i} [/ math], por lo tanto, después de entrenar, los pesos para las características relevantes correspondientes serán altos. Además, considere [math] v [/ math] es una concatenación del vector de característica relevante [math] v_ {relevante} [/ math] y el vector de característica irrelevante [math] v_ {irrelevante} [/ math] como

[matemáticas] v = [v_ {relevante}, v_ {irrelevante}] [/ matemáticas]

El vector de peso también se puede ver como un vector concatenado:

[matemáticas] w = [w_ {relevante}, w_ {irrelevante}] [/ matemáticas]

Entonces podemos escribir más

[matemáticas] y = \ varphi (v ^ {T} w + b) [/ matemáticas]

[matemática] y = \ varphi (v ^ {T} _ {relevante} w_ {relevante} + v ^ {T} _ {irrelevante} w_ {irrelevante} + b) [/ matemática]

Después de aprender

[matemáticas] w_ {irrelevante} \ aprox 0 [/ matemáticas]

Así que eso reduce la dimensionalidad efectiva del problema a la dimensionalidad de [math] w_ {relevante} [/ math]. Esta es una forma de reducción de dimensionalidad. Este proceso ocurre en cada capa de las redes neuronales profundas (DNN) porque cada una de las neuronas en el DNN solo será sensible a una característica relevante en particular.

Espero que esto ayude.

Este tipo de pensamiento es lamentablemente incorrecto. Específicamente, es un desajuste de impedancia.

La maldición de la dimensionalidad es una característica de los datos , y las redes neuronales profundas son una clase de algoritmos .

Lo que supera la maldición es un mejor modelado de datos , particularmente, el modelado de datos en un espacio dimensional inferior donde la posición relativa de los puntos en ese espacio transmite información sobre su información mutua. Por lo general, eso se refiere a la transformación de activaciones discretas (vectores “one hot”) en un espacio de características continuas.

Esto se logra en el reconocimiento de voz , por ejemplo, a través de mapeos de densidad espectral de potencia donde los sonidos similares tienen mapas espectrales similares.

En la visión por computadora , esta es la intensidad de píxeles sin procesar.

En lenguaje natural , típicamente esto se logra a través del modelado de lenguaje distributivo, como la incorporación de palabras o la descomposición de valores singulares.

Esta transformación puede ser aprovechada por muchos algoritmos de aprendizaje automático, no solo por redes neuronales profundas.

El único beneficio de las redes neuronales profundas es la capacidad de dibujar límites de decisión no lineales, de forma compleja, alrededor de puntos en este espacio vectorial. Este beneficio es más importante en una dimensión inferior donde se agrupan puntos semánticamente similares.

Stéphane Mallat tiene una explicación en su discurso en el panel de CVPR 2014. Él ve las redes profundas como una máquina de contracción. La maldición de la dimensionalidad causa problemas en la clasificación porque si el número de puntos de datos n << 2 ^ d (d es la dimensión de la muestra), la mayoría de los puntos estarían muy lejos unos de otros en el espacio de alta intensidad. Por lo tanto, no podemos estimar localmente de manera confiable la etiqueta de una nueva muestra en función de sus vecinos. Las redes profundas podrían estar aprendiendo cómo contraer el espacio (reducir las variaciones dentro de la clase) mientras se preserva el margen (distancias entre clases).