La regresión proviene del trabajo realizado por Francis Galton. Galton notó que los padres altos tendían a tener hijos más bajos (en promedio), y que los padres bajos tendían a tener hijos más altos (en promedio). Francis Galton era primo (medio) de Charles Darwin, y pensó que tal vez esto tenía algo que ver con la evolución: es mejor, por alguna razón, tener una estatura promedio.
Llamó a esto “regresión hacia la mediocridad”, hoy en día decimos regresión hacia la media. (La palabra mediocridad ha cambiado su significado. [1])
Pero Galton hizo el análisis al revés: descubrió que los hijos altos tendían a tener (en promedio) padres más bajos. Y los hijos pequeños tendían a tener (en promedio) padres altos. Se dio cuenta de que esto no era un hecho biológico, sino un artefacto matemático.
Se dio cuenta de que cada vez que hay dos medidas que no están perfectamente relacionadas, habrá una regresión a la media. Cuanto más débil sea la relación, mayor será la regresión. Quería una forma de cuantificar cuánta regresión a la media iba a haber, una forma de medir la fuerza de la relación, porque las relaciones más fuertes conducen a una menor regresión. Esto condujo, de manera indirecta, a la correlación (trabajó con Pearson, y era un gran admirador de) Galton.
- En optimización, ¿cuáles son algunos ejemplos geniales de reformulación?
- ¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?
- ¿Cómo genera el modelo generativo muestras de ruidos?
- Cómo entrenar una red neuronal con grandes datos
- ELI5: ¿Qué son las redes neuronales?
Hoy en día pensamos que el análisis de correlación y regresión se trata de describir relaciones, pero el nombre se ha quedado. La r, que se utiliza para representar la correlación, significa regresión.
[1] No es el único trabajo que se utiliza en las estadísticas que ha cambiado su significado, lo significativo es otro. Pero esa es otra respuesta.