Lanzas una red y sacas muchos peces del mar. Algunos peces son grandes y otros pequeños.
Le gustaría saber con precisión cuáles son grandes y cuáles son pequeños, por lo que se dispuso a medirlos. Rápidamente se da cuenta de que hay muchas formas de medirlos. ¿Deberías medir su longitud desde la boca hasta la cola? ¿Tal vez deberías medir su ancho? Su altura? ¿La distancia entre las aletas y la cola?
Como eres del tipo obsesivo, terminas realizando una docena de mediciones para cada pez. Algunos peces son anchos, algunos son planos, otros son cortos … sin embargo, a pesar de la docena de medidas que puede hacer, todavía está claro que algunos peces son “grandes” y otros son “pequeños”.
- ¿Qué conjunto de datos público está disponible para hacer reconocimiento facial?
- ¿Qué es la traducción automática estadística?
- ¿Cuáles son los fundamentos programáticos del procesamiento del lenguaje natural?
- ¿Cuáles son los roles de probabilidad y estadística en el aprendizaje automático? ¿Qué tan importantes son? ¿Cuáles son sus aplicaciones en el aprendizaje automático?
- ¿Quiénes son algunos de los principales profesores que enseñan Machine Learning en Europa?
No quieres una docena de medidas, quieres una sola puntuación de “grandeza”. Podría elegir una sola medida, pero eso parece arbitrario. Podría tomar un promedio de todas las mediciones, pero eso también parece arbitrario. Por ejemplo, si decides medir el doble de la longitud del ojo a la cola, contaría el doble … ¿por qué debería ser eso?
El análisis factorial es un enfoque latente. Significa que comienza asumiendo que existe un puntaje de grandeza natural y luego describe las propiedades que este puntaje debería tener.
Una de esas propiedades sería que el puntaje de grandeza sea predictivo de todas las demás mediciones. Si pudiera obtener un número único para cada pez que pueda predecir con la misma precisión la otra medición, sería una definición razonable de grandeza.
Si tuviera un pez y quisieras preguntarme un solo número, ese puntaje es el que más te dirá sobre las diferentes medidas del pez.
Típicamente, en el análisis factorial uno se limita al modelo lineal. Es decir, buscará un promedio ponderado de sus mediciones para formar su puntaje compuesto, y solicitará que el puntaje dé buenas predicciones lineales de las mediciones.
Supongamos ahora que se te ocurrió un factor de grandeza. Funcionará bien para la mayoría de los peces, pero claramente ahora se ve que realmente no describe a los peces. Los peces no solo son grandes y pequeños, sino que algunos son muy planos y otros muy gruesos. Luego introduce un segundo factor latente. Ahora busca dos puntajes que juntos harán un buen trabajo al predecir las diversas medidas de cada pez.
En pocas palabras, es un análisis factorial, elabore un pequeño número de factores que juntos hagan un buen trabajo al describir un mayor número de mediciones.