¿Cómo impacta la alta dimensionalidad en la efectividad del modelo?

Hay muchos ejemplos en los que los métodos de ML que funcionan bien a primera vista fallan miserablemente para datos de dimensiones superiores. Enumerando los ejemplos más atroces aquí:

  1. Estimación de densidad basada en histograma. Conceptualmente en 1D, esto significa que divide su línea en bins (intervalos), con [math] n [/ math] bins a lo largo de cada dimensión, para un total de [math] n [/ math] bins (suponiendo que su región de interés sea acotado), luego cuenta el número de puntos de datos de entrenamiento que aterrizan en cada cuadro, luego usa esos recuentos (normalizados) para estimar la densidad de probabilidad en toda la cuadrícula. Formalmente, su estimación es [matemática] P (x) = \ sum_ {i = 1} ^ n \ frac {c_i n} {M} I [x \ en B_i] [/ matemática], donde [matemática] M [/ matemática] es el número total de puntos de datos, [matemática] n [/ matemática] es el número de contenedores a lo largo de cada dimensión, y [matemática] I [x \ en B_i] = 1 [/ matemática] si su punto de prueba x cae dentro bin [matemáticas] B_i [/ ​​matemáticas]. Parece bien, ¿no? Bueno, ¿cuántos contenedores necesitas para las dimensiones [math] D \ gg 1 [/ math]? Tendrás [math] n ^ D [/ math] bins. Buena suerte para encontrar suficientes puntos de datos para que cada contenedor tenga al menos un punto de datos de entrenamiento.
  2. Digamos que los datos son generados por dos gaussianos esféricos en alta dimensión, y queremos asegurarnos de que los medios estén lo suficientemente separados para que la probabilidad de mezcla sea lo suficientemente baja como para que algún método de agrupamiento basado en la distancia agrupe correctamente casi todos los puntos de datos. “Mezclar” solo significa que dos puntos de datos etiquetados, [matemática] x_1 [/ matemática] del primer gaussiano y [matemática] x_2 [/ matemática] del segundo, se alejan tanto de sus respectivos medios que cruzan al otro grupo ( por supuesto, no hay etiquetas en el aprendizaje no supervisado; esto es solo para una imagen intuitiva). Ahora, hay límites de probabilidad para ciertos archivos PDF tales como [matemática] P (\ lVert X – \ mu \ rVert \ geq tE [\ lVert X- \ mu \ rVert ^ 2]) \ leq e ^ {- t + 1} [/matemáticas]. Esto nos permite saber cuánto deben separarse los centros de los respectivos gaussianos, dado que solo toleramos [matemática] \ delta [/ matemática] probabilidad de mezcla. Sin embargo, lo desafortunado es que la varianza [math] E [\ lVert X- \ mu \ rVert ^ 2] [/ math] escala con algún poder de la dimensión (por ejemplo, [math] \ sqrt {D} [/ math] ), de modo que los métodos de agrupación simples que ignoran la dimensionalidad requerirán una separación cada vez mayor del clúster para funcionar, a medida que aumenta la dimensión, a pesar de que los puntos de datos pueden ser “obviamente separables” para algunas personas de dimensiones superiores que observan los datos en [matemáticas] \ mathbb {R} ^ D [/ math].

Supongo que se trata de la llamada Maldición de la Dimensionalidad.

Maldición de dimensionalidad – Wikipedia

“La maldición de la dimensionalidad se refiere a varios fenómenos que surgen al analizar y organizar datos en espacios de alta dimensión (a menudo con cientos o miles de dimensiones) que no ocurren en entornos de baja dimensión como el espacio físico tridimensional de la experiencia cotidiana . La expresión fue acuñada por Richard E. Bellman al considerar problemas en la optimización dinámica “.

y ha sido rico antes en Quora,

¿Cuál es la maldición de la dimensionalidad?

En pocas palabras, cuando tiene un modelo de 10 parámetros y 1000 puntos de datos, y resulta que encuentra parámetros que predicen sus datos, entonces esto dice algo sobre cómo se comportan sus datos, y probablemente se generalizará bien.

Si tiene 1000 parámetros y 10 puntos de datos, seguramente encontrará buenos parámetros para predecir estos 10 puntos de datos, solo porque el espacio de los modelos (1000 dimensiones) es muy grande y la cantidad de requisitos (10 dimensiones) es muy pequeña . Esto no dice nada sobre sus datos, y probablemente no se generalizará bien.

Cuando agrega un regulador (por ejemplo, alguna penalización en los parámetros del nodo, como la escasez), esencialmente reduce el tamaño del espacio de “modelos buenos”.

More Interesting

¿Por qué son escasos los autoencoders escasos?

¿Cómo se comparan las bibliotecas de aprendizaje automático de C ++ con las disponibles en Python?

¿Cómo puedo demostrar que si no escalo las características antes de aplicar el descenso de gradiente, disminuirá la convergencia?

¿Cuáles son los temas candentes del aprendizaje profundo para el análisis de imágenes médicas en 2017?

Cómo garantizar que la función SIFT sea invariante en perspectiva

Cómo hacer una selección y clasificación de características adecuadas en datos dispersos de alta dimensión y altamente desequilibrados

¿Debería Facebook usar el aprendizaje automático para identificar a los usuarios con potencial de convertirse en un asesino en masa?

¿Cuáles son las desventajas de [math] abs (x) [/ math] como función de activación en redes neuronales?

¿Qué recursos de tutoría están disponibles para que un ingeniero aprenda Machine Learning en Quora?

¿Cuál es la relación entre softmax y sigmoide ya que sus derivados son similares?

¿Qué tan similares son los problemas en los diversos campos del análisis de datos (aprendizaje automático, estadísticas, procesamiento de señales, optimización, teoría de la información, etc.)?

¿Por qué las GAN han tenido menos éxito con el texto que con las imágenes y el habla?

¿Cuáles son los problemas interesantes en la 'automatización de big data'?

¿Puedes explicar cómo el BPTT sufre un problema de gradiente?

¿Puede el desarrollador de hadoop aprender el aprendizaje automático?