¿Cómo escapa / resiste una red neuronal profunda a la maldición de la dimensionalidad?

La maldición de la dimensionalidad normalmente se produce porque en los datos hay características relevantes y demasiadas irrelevantes (ruido). Las neuronas en las arquitecturas de aprendizaje profundo (DL) utilizan muchos datos para modelar un problema y, por lo tanto, un sistema DL reduce la influencia de las características irrelevantes al tiempo que aumenta la influencia de las características relevantes durante el aprendizaje.

Permítanme explicar esto un poco más al centrarme en una sola unidad de procesamiento (neurona).

Dado un vector de características de alta dimensión sin procesar [math] v [/ math],

[matemáticas] v = [v_1, v_2,…, v_n] [/ matemáticas]

Para [matemática] n [/ matemática] = número muy grande como una imagen [matemática] n = ancho × alto [/ matemática]

Sabemos que la información real existe en un espacio dimensional mucho más bajo que [math] n [/ math]. Es por eso que la reducción de dimensionalidad funciona bien porque elimina la maldición de la dimensionalidad al proyectar los datos en un espacio representacional relevante mucho más bajo. El proceso de aprendizaje en algoritmos de aprendizaje automático (ML) encuentra un espacio de representación dimensional más pequeño en el gran vector bruto [math] v [/ math].

Para simplificar, considere un solo nodo

[matemáticas] y = \ varphi (\ sum_ {i = 1} ^ {n} v_ {i} w_ {i} + b) [/ matemáticas]

El nodo toma una decisión sopesando cada característica [math] v_ {i} [/ math], por lo tanto, después de entrenar, los pesos para las características relevantes correspondientes serán altos. Además, considere [math] v [/ math] es una concatenación del vector de característica relevante [math] v_ {relevante} [/ math] y el vector de característica irrelevante [math] v_ {irrelevante} [/ math] como

[matemáticas] v = [v_ {relevante}, v_ {irrelevante}] [/ matemáticas]

El vector de peso también se puede ver como un vector concatenado:

[matemáticas] w = [w_ {relevante}, w_ {irrelevante}] [/ matemáticas]

Entonces podemos escribir más

[matemáticas] y = \ varphi (v ^ {T} w + b) [/ matemáticas]

[matemática] y = \ varphi (v ^ {T} _ {relevante} w_ {relevante} + v ^ {T} _ {irrelevante} w_ {irrelevante} + b) [/ matemática]

Después de aprender

[matemáticas] w_ {irrelevante} \ aprox 0 [/ matemáticas]

Así que eso reduce la dimensionalidad efectiva del problema a la dimensionalidad de [math] w_ {relevante} [/ math]. Esta es una forma de reducción de dimensionalidad. Este proceso ocurre en cada capa de las redes neuronales profundas (DNN) porque cada una de las neuronas en el DNN solo será sensible a una característica relevante en particular.

Espero que esto ayude.

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

Cómo construir una aplicación web con capacidades de aprendizaje automático

Cómo predecir cuándo ocurrirá el próximo evento (tiempo) usando variables cuantitativas independientes

¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?

¿Por qué mi red neuronal artificial predice demasiados falsos negativos (FN)?

¿Cuál es la mejor manera de aprender la programación CUDA C para implementar nuevas ideas de aprendizaje profundo?

¿Cuál sería la arquitectura más apropiada para entrenar una red neuronal basada en dos imágenes de entrada?

Este tipo de pensamiento es lamentablemente incorrecto. Específicamente, es un desajuste de impedancia.

La maldición de la dimensionalidad es una característica de los datos , y las redes neuronales profundas son una clase de algoritmos .

Lo que supera la maldición es un mejor modelado de datos , particularmente, el modelado de datos en un espacio dimensional inferior donde la posición relativa de los puntos en ese espacio transmite información sobre su información mutua. Por lo general, eso se refiere a la transformación de activaciones discretas (vectores “one hot”) en un espacio de características continuas.

Esto se logra en el reconocimiento de voz , por ejemplo, a través de mapeos de densidad espectral de potencia donde los sonidos similares tienen mapas espectrales similares.

En la visión por computadora , esta es la intensidad de píxeles sin procesar.

En lenguaje natural , típicamente esto se logra a través del modelado de lenguaje distributivo, como la incorporación de palabras o la descomposición de valores singulares.

Esta transformación puede ser aprovechada por muchos algoritmos de aprendizaje automático, no solo por redes neuronales profundas.

El único beneficio de las redes neuronales profundas es la capacidad de dibujar límites de decisión no lineales, de forma compleja, alrededor de puntos en este espacio vectorial. Este beneficio es más importante en una dimensión inferior donde se agrupan puntos semánticamente similares.

Myk Shaalo

Stéphane Mallat tiene una explicación en su discurso en el panel de CVPR 2014. Él ve las redes profundas como una máquina de contracción. La maldición de la dimensionalidad causa problemas en la clasificación porque si el número de puntos de datos n << 2 ^ d (d es la dimensión de la muestra), la mayoría de los puntos estarían muy lejos unos de otros en el espacio de alta intensidad. Por lo tanto, no podemos estimar localmente de manera confiable la etiqueta de una nueva muestra en función de sus vecinos. Las redes profundas podrían estar aprendiendo cómo contraer el espacio (reducir las variaciones dentro de la clase) mientras se preserva el margen (distancias entre clases).

Myk Shaalo

More Interesting

¿Qué es la regresión de cresta?

¿Cuántas personas en el mundo son expertos en aprendizaje profundo para visión por computadora?

¿Cómo se interpretan la precisión y el recuerdo en una tarea de segmentación?

En finanzas cuantitativas, ¿hay alguna analogía entre la optimización de la cartera y el análisis de componentes principales?

Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?

¿Por qué se usan capas completamente conectadas en el "extremo" [lado de salida] de las NN convolucionales? ¿Por qué no antes?

¿Cuál es un buen conjunto de datos de Kaggle para practicar el ajuste de modelos de regresión logística o modelos jerárquicos?

¿Qué significa end to end en los métodos de aprendizaje profundo?

¿Debo aplicar PCA antes o después de la selección de funciones?

¿Se pueden programar las computadoras para comprender el valor estético de algo?