¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?

Compresión de datos: después de hacer PCA, puede hacer que sus datos sean pequeños al disminuir el número de características (seleccionando solo k características de n) que es lo que hace la compresión de datos. Suponga que tiene datos tridimensionales y desea hacerlo bidimensional, para eso dibujamos un plano desde el cual la proyección de los puntos 3D al plano es mínima, por esto tenemos un plano ( 2D ) que contiene la información de 3D apunte a través de sus proyecciones (como la sombra contiene la información de longitud, anchura y altura del cuerpo).

Descompresión de datos: conociendo mis proyecciones en el plano 2D, ¿no podemos volver a proyectarlo en un espacio tridimensional nuevamente? (Si sabes cómo se ve el fósil, ¿no te imaginas cómo habría sido el dinosaurio?). 3D y 2D fueron solo un ejemplo de bajo nivel de compresión y descompresión, incluso se puede reducir el tamaño de la característica de 10,000 a 1000 reteniendo una variación del 99% mientras se vuelve a proyectar (suponiendo que el dinosaurio que extrajimos del fósil fuera correcto con el 99%).

Visualización de datos: si queremos saber cómo un clasificador dibuja límites entre ejemplos positivos y negativos o cómo se dividen las clases, podemos verlo con 9567 dimensiones (aleatorias). Para ver el rendimiento del clasificador o los límites o los datos visualmente, debemos condensar los datos de la entidad n en un espacio de 2 o 3 dimensiones (porque podemos dibujar gráficos solo en (2D o 3D).

Acelerar el algoritmo: entrenar el modelo de aprendizaje automático en 100,000,000 funciones puede llevarme toda la vida en el procesador Pentium 4. Debemos condensar el tamaño de la función a un tamaño que sea menor que la función actual y tendría una variación del 99% (Búscalo en Google lo que significa) para mantener la precisión. Por lo tanto, mantener menos funciones (que contienen información sobre más funciones) disminuirá el tamaño del entrenamiento.

PCA en conceptos simples : para escribir las notas de clase en un libro que es 2D y contendría todos los puntos clave de la clase ( compresión de datos ) y después de lo cual, si lees o entrenas, recordarás lo que sucedió en clase o lo que dijo el profesor durante ese tiempo ( descompresión de datos ) y mientras lo lees, probablemente tengas menos tiempo para cubrir el semestre total en notas de 3 horas ( algoritmo de aceleración )

Estudié estadísticas hace 3 décadas y no tengo actualizaciones ya que no estoy en el mundo académico, pero estaba en el servicio civil. El tema en sí ha sufrido tantos cambios y cualquier respuesta que le dé no será mi original, sino de Internet. Entonces no podré responder la pregunta.

PPC se utiliza para identificar las variables que más contribuyen a la varianza en un conjunto de datos que se supone que están correlacionados.

Solía ​​usar este análisis de grandes conjuntos de datos para resaltar aquellas variables en las que debería concentrarme en las etapas iniciales para determinar si eran realmente variables significativas en los modelos de impulsores subyacentes de la diferencia.

Un ejemplo trivial sería ‘¿El tiempo que sale de su casa por la mañana para ir a trabajar contribuye a la velocidad promedio a la que viaja en un entorno urbano congestionado’?

Nunca hice este análisis en particular, pero estoy seguro de que te darás cuenta de que, ‘Sí’, el tiempo que salgas de casa por la mañana afectaría la velocidad promedio de viaje en un entorno urbano congestionado.

More Interesting

¿Cuál es la diferencia de enfoque para resolver un desafío de Kaggle y trabajar en un problema de investigación de LA bien definido?

Dadas las variables / parámetros continuos, ¿cuál es la diferencia entre el aprendizaje automático y la interpolación?

¿Cuáles son las aplicaciones del aprendizaje profundo en la India?

¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

¿Qué aplicaciones prácticas ve para ejecutar los modelos TensorFlow en un teléfono inteligente?

¿Por qué decimos que las redes neuronales simples no pueden manejar la entrada de longitud variable?

¿Cuál es la mejor computadora portátil que puedo obtener para aprender el aprendizaje profundo con CUDA?

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

¿Cuáles son los documentos más importantes en el aprendizaje activo?

¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?

¿Por qué la función de activación de softmax se llama "softmax"?

¿Cómo combino análisis de series temporales y regresión lineal?

¿Cuáles son las aplicaciones de los gráficos dispersos?

¿Cuáles son algunos buenos textos en MCMC?

¿Cuáles son algunas aplicaciones del aprendizaje por refuerzo (o aprendizaje por refuerzo profundo) en finanzas y economía?