Hay muchos ejemplos en los que los métodos de ML que funcionan bien a primera vista fallan miserablemente para datos de dimensiones superiores. Enumerando los ejemplos más atroces aquí:
- Estimación de densidad basada en histograma. Conceptualmente en 1D, esto significa que divide su línea en bins (intervalos), con [math] n [/ math] bins a lo largo de cada dimensión, para un total de [math] n [/ math] bins (suponiendo que su región de interés sea acotado), luego cuenta el número de puntos de datos de entrenamiento que aterrizan en cada cuadro, luego usa esos recuentos (normalizados) para estimar la densidad de probabilidad en toda la cuadrícula. Formalmente, su estimación es [matemática] P (x) = \ sum_ {i = 1} ^ n \ frac {c_i n} {M} I [x \ en B_i] [/ matemática], donde [matemática] M [/ matemática] es el número total de puntos de datos, [matemática] n [/ matemática] es el número de contenedores a lo largo de cada dimensión, y [matemática] I [x \ en B_i] = 1 [/ matemática] si su punto de prueba x cae dentro bin [matemáticas] B_i [/ matemáticas]. Parece bien, ¿no? Bueno, ¿cuántos contenedores necesitas para las dimensiones [math] D \ gg 1 [/ math]? Tendrás [math] n ^ D [/ math] bins. Buena suerte para encontrar suficientes puntos de datos para que cada contenedor tenga al menos un punto de datos de entrenamiento.
- Digamos que los datos son generados por dos gaussianos esféricos en alta dimensión, y queremos asegurarnos de que los medios estén lo suficientemente separados para que la probabilidad de mezcla sea lo suficientemente baja como para que algún método de agrupamiento basado en la distancia agrupe correctamente casi todos los puntos de datos. “Mezclar” solo significa que dos puntos de datos etiquetados, [matemática] x_1 [/ matemática] del primer gaussiano y [matemática] x_2 [/ matemática] del segundo, se alejan tanto de sus respectivos medios que cruzan al otro grupo ( por supuesto, no hay etiquetas en el aprendizaje no supervisado; esto es solo para una imagen intuitiva). Ahora, hay límites de probabilidad para ciertos archivos PDF tales como [matemática] P (\ lVert X – \ mu \ rVert \ geq tE [\ lVert X- \ mu \ rVert ^ 2]) \ leq e ^ {- t + 1} [/matemáticas]. Esto nos permite saber cuánto deben separarse los centros de los respectivos gaussianos, dado que solo toleramos [matemática] \ delta [/ matemática] probabilidad de mezcla. Sin embargo, lo desafortunado es que la varianza [math] E [\ lVert X- \ mu \ rVert ^ 2] [/ math] escala con algún poder de la dimensión (por ejemplo, [math] \ sqrt {D} [/ math] ), de modo que los métodos de agrupación simples que ignoran la dimensionalidad requerirán una separación cada vez mayor del clúster para funcionar, a medida que aumenta la dimensión, a pesar de que los puntos de datos pueden ser “obviamente separables” para algunas personas de dimensiones superiores que observan los datos en [matemáticas] \ mathbb {R} ^ D [/ math].