¿Cuáles son los diferentes métodos de reducción de dimensionalidad en estadística?

Hay tantos … primero, vamos a dividirlo en “selección de características” y “extracción de características”

Algunos ejemplos de selección de funciones:

– Regularización L1 (p. Ej., Regresión logística) y dispersión
– umbrales de varianza
– Eliminación de características recursivas basada en los pesos de los modelos lineales.
– bosques aleatorios / árboles adicionales y características importantes (calculadas como ganancia de información promedio)
– selección secuencial hacia adelante / hacia atrás (un artículo sobre los que he escrito hace algún tiempo: Algoritmos de selección de características secuenciales en Python)
– algoritmos genéticos
– búsqueda exhaustiva

Algunos ejemplos de extracción de características:

– El análisis de componentes principales (PCA), sin supervisión, devuelve ejes de varianza máxima dada la restricción de que esos ejes son ortogonales entre sí (también, un artículo que escribí hace algún tiempo: PCA en 3 pasos)
– El análisis discriminante lineal (LDA; no debe confundirse con la asignación de Dirichlett latente), supervisado, devuelve ejes que maximizan la separabilidad de clase (misma restricción que los ejes también son ortogonales); y otro artículo: Análisis discriminante lineal poco a poco
– Kernel PCA: utiliza el truco del kernel para transformar los datos no lineales en un espacio de características donde las muestras pueden ser linealmente separables (en contraste, LDA y PCA son técnicas de transformación lineal (el último de mis artículos que vincularé aquí 😉 Kernel PCA)
– PCA supervisada
– y muchas más técnicas de transformación no lineal, que puede encontrar muy bien resumidas aquí: reducción de dimensionalidad no lineal

Editar:
Entonces, ¿qué técnica debemos usar?
Esto también sigue el principio del “Teorema de no almorzar” en algún sentido: no existe un método que sea siempre superior; Depende de su conjunto de datos. Intuitivamente, LDA tendría más sentido que PCA si tiene una tarea de clasificación lineal, pero los estudios empíricos demostraron que no siempre es así. Aunque la PCA del núcleo puede separar los círculos concéntricos, por ejemplo, no se despliega el rollo suizo: aquí sería más apropiado la inserción localmente lineal (LLE).


En pocas palabras, debe probarlo en su conjunto de datos real y evaluar y comparar los resultados.

Personalmente, rara vez uso técnicas de reducción tenue ya que la eficiencia computacional generalmente no es un problema para mí. No necesito hacer predicciones en “tiempo real” y los conjuntos de datos con los que estoy trabajando también suelen tener un tamaño moderado. Si no, tengo acceso a una supercomputadora donde puedo ejecutar esas cosas con ram “ilimitado” y número de núcleos. Para abordar “la maldición de la dimensionalidad”, prefiero modelos regulares o técnicas de conjunto

El análisis de componentes principales se puede considerar como una de las técnicas de reducción dimensional que se puede utilizar para el procesamiento de imágenes, aunque también hay muchas otras técnicas.

PCA se puede realizar utilizando muchas herramientas como R, python, matlab. Para saber más sobre cómo realizar PCA en R o cuáles son las técnicas de reducción dimensional, puede seguir aquí

  • Análisis de componentes principales en R
  • ¿Qué son las técnicas de reducción de la dimensionalidad?

Sé que esta no es una respuesta directa a la pregunta, pero permítanme enumerar algunos métodos de reducción de dimensionalidad que no son parte de las estadísticas pero que pueden usar los estadísticos:

  • Los mapas autoorganizados reducen las dimensiones manteniendo la topología.
  • El gas neuronal es una alternativa computacionalmente más intensiva y sofisticada de los mapas autoorganizados.
  • Autoencoder una alternativa no lineal (coloquialmente hablando) a PCA

Tengo un breve tutorial sobre PCA en Python si quieres un ejemplo.

K-Means, PCA y Dendrogram en el conjunto de datos Animales con atributos

Sin embargo, hay muchos otros métodos.

Hay métodos lineales y no lineales, con métodos no lineales divididos en métodos locales y globales. PCA generalmente funciona bien con datos del mundo real en comparación con los métodos de aprendizaje múltiple (no lineal). Tengo una breve revisión de los métodos y sus características / aplicaciones aquí: https://www.slideshare.net/Colle

Los principales que son puramente una técnica de reducción de dimensiones son el análisis de componentes principales y sus variaciones.

Otros son más para la selección de modelos en regresión (o algún otro método) y estos incluyen paso a paso (terrible), LASSO y LAR (mucho mejor), red elástica, mínimos cuadrados parciales, algoritmos genéticos, etc.

Un avance reciente en la reducción de dimensionalidad es el llamado ‘subespacio activo’.
Página en arxiv.org

More Interesting

¿Qué papel juega la función logística en el algoritmo de regresión logística en el aprendizaje automático?

¿Cuáles son las definiciones de entrada, salida y destino en el aprendizaje automático?

¿Cómo puede un estudiante de primer año en la universidad comenzar su viaje para una carrera en ML e IA?

¿Cuál es la diferencia (o relación) entre el aprendizaje profundo y un sistema inteligente?

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

¿Por qué el aprendizaje profundo no tiene un mínimo local?

¿En qué campos todavía no se ha aplicado el aprendizaje automático (o está menos explorado)?

¿Cómo puede ayudar el conocimiento de un proceso estocástico, el movimiento browniano y un proceso de martingala con el aprendizaje profundo y la investigación del aprendizaje automático?

¿Cómo está bien si me resulta difícil recordar todo después de terminar el curso de aprendizaje automático?

¿De dónde obtienen los sistemas de conducción autónomos sus datos de entrenamiento?

¿Qué significa Wabbit?

¿Cuáles son algunos avances interesantes sobre las matemáticas del aprendizaje profundo?

¿Cuál es el mejor lenguaje de programación para un bootcamp de aprendizaje automático?

¿Cuáles son todas las debilidades que Lee Sedol encontró en el juego de AlphaGo?

Debido a que este será el tema de un panel en el Instituto de Verano NBER, ¿qué puede aprender la economía de Data Science y / o Machine Learning, y qué puntos sobre este tema le gustaría ver incluidos?