Editar: Anónimo ha señalado que esto podría estar respondiendo la pregunta incorrecta. Siga leyendo si está interesado en una explicación de “regresión múltiple”. La “regresión multivariante” a veces se refiere a algo diferente: un método para predecir simultáneamente múltiples resultados usando el mismo conjunto de variables.
Imagina que eres un oficial de admisiones universitarias tratando de decidir si admitir a un posible estudiante. Te gustaría admitir a los estudiantes que les irá bien. Con este fin, usted decide tratar de predecir el GPA [matemático] C [/ matemático] futuro de la universidad de un postulante a partir de su GPA [matemático] H [/ matemático] de la escuela secundaria y su puntaje SAT [matemático] S [/ matemático].
Una manera simple de hacer esto es encontrar algunos números [matemática] a [/ matemática] y [matemática] b [/ matemática] para que [matemática] aH + bS [/ matemática] sea una buena predicción de [matemática] C [ /mates].
- ¿Cuáles son las áreas básicas de conocimiento matemático y estadístico con las que un científico debería sentirse muy cómodo y cómo las aprende?
- ¿Qué se entiende por 'Los datos son el nuevo petróleo'?
- ¿En qué se diferencia ETL de BigData?
- ¿Qué escuela es mejor para la ciencia de datos? Master of Computer Science - Data Science en UIUC o Master of Information - Data Science en UC Berkeley
- ¿Es una buena idea pasar a Big Data (Hadoop)? Tengo más de 11 años de experiencia en .NET y C ++.
Pero, ¿cómo elegir [matemáticas] a [/ matemáticas] y [matemáticas] b [/ matemáticas]? Si tiene muchos datos de estudiantes anteriores (cuyos GPA universitarios son conocidos), puede probar diferentes valores de [matemáticas] a [/ matemáticas] y [matemáticas] b [/ matemáticas] hasta que obtenga los que hacen las predicciones lo más cerca posible de los valores verdaderos.
La forma estándar de hacer esto es elegir [matemática] a [/ matemática] y [matemática] b [/ matemática] para que la suma de las diferencias al cuadrado entre [matemática] C [/ matemática] y [matemática] aH + bS [/ math] en sus datos históricos es lo más pequeño posible. Este negocio de usar la diferencia al cuadrado es principalmente para que puedas resolver lo mejor [matemática] a [/ matemática] y [matemática] b [/ matemática] con algunas matemáticas muy simples. Con otro tipo de medida de error, es posible que deba buscar los mejores valores.
El “múltiple” en la regresión múltiple solo significa que tiene más de una variable que está utilizando para hacer predicciones. En este ejemplo son dos, pero podrías tener diez o cientos.
Hay mucho más que puedes decir: en un curso de estadística, generalmente modelarías el error en la relación lineal subyacente. Tal modelo se puede usar para derivar enunciados adicionales acerca de cuánto error hay en la estimación [matemática] a [/ matemática] y [matemática] b [/ matemática]. Pero esta es la idea principal.