La maldición de la dimensionalidad normalmente se produce porque en los datos hay características relevantes y demasiadas irrelevantes (ruido). Las neuronas en las arquitecturas de aprendizaje profundo (DL) utilizan muchos datos para modelar un problema y, por lo tanto, un sistema DL reduce la influencia de las características irrelevantes al tiempo que aumenta la influencia de las características relevantes durante el aprendizaje.
Permítanme explicar esto un poco más al centrarme en una sola unidad de procesamiento (neurona).
Dado un vector de características de alta dimensión sin procesar [math] v [/ math],
- ¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?
- ¿Son los enfoques variacionales estocásticos la forma de hacer ML bayesiano a gran escala o ves alguna esperanza de ampliar los algoritmos basados en MCMC?
- ¿La correlación entre dos variables cuenta como evidencia débil de un vínculo causal entre ellas?
- ¿Cuál es la mejor herramienta de optimización bayesiana para optimizar hiperparámetros de grandes redes neuronales?
- ¿Por qué todas las principales empresas de tecnología abren fuentes principales de su tecnología de inteligencia artificial?
[matemáticas] v = [v_1, v_2,…, v_n] [/ matemáticas]
Para [matemática] n [/ matemática] = número muy grande como una imagen [matemática] n = ancho × alto [/ matemática]
Sabemos que la información real existe en un espacio dimensional mucho más bajo que [math] n [/ math]. Es por eso que la reducción de dimensionalidad funciona bien porque elimina la maldición de la dimensionalidad al proyectar los datos en un espacio representacional relevante mucho más bajo. El proceso de aprendizaje en algoritmos de aprendizaje automático (ML) encuentra un espacio de representación dimensional más pequeño en el gran vector bruto [math] v [/ math].
Para simplificar, considere un solo nodo
[matemáticas] y = \ varphi (\ sum_ {i = 1} ^ {n} v_ {i} w_ {i} + b) [/ matemáticas]
El nodo toma una decisión sopesando cada característica [math] v_ {i} [/ math], por lo tanto, después de entrenar, los pesos para las características relevantes correspondientes serán altos. Además, considere [math] v [/ math] es una concatenación del vector de característica relevante [math] v_ {relevante} [/ math] y el vector de característica irrelevante [math] v_ {irrelevante} [/ math] como
[matemáticas] v = [v_ {relevante}, v_ {irrelevante}] [/ matemáticas]
El vector de peso también se puede ver como un vector concatenado:
[matemáticas] w = [w_ {relevante}, w_ {irrelevante}] [/ matemáticas]
Entonces podemos escribir más
[matemáticas] y = \ varphi (v ^ {T} w + b) [/ matemáticas]
[matemática] y = \ varphi (v ^ {T} _ {relevante} w_ {relevante} + v ^ {T} _ {irrelevante} w_ {irrelevante} + b) [/ matemática]
Después de aprender
[matemáticas] w_ {irrelevante} \ aprox 0 [/ matemáticas]
Así que eso reduce la dimensionalidad efectiva del problema a la dimensionalidad de [math] w_ {relevante} [/ math]. Esta es una forma de reducción de dimensionalidad. Este proceso ocurre en cada capa de las redes neuronales profundas (DNN) porque cada una de las neuronas en el DNN solo será sensible a una característica relevante en particular.
Espero que esto ayude.