¿Qué es una explicación intuitiva de una regresión multivariada?

Editar: Anónimo ha señalado que esto podría estar respondiendo la pregunta incorrecta. Siga leyendo si está interesado en una explicación de “regresión múltiple”. La “regresión multivariante” a veces se refiere a algo diferente: un método para predecir simultáneamente múltiples resultados usando el mismo conjunto de variables.

Imagina que eres un oficial de admisiones universitarias tratando de decidir si admitir a un posible estudiante. Te gustaría admitir a los estudiantes que les irá bien. Con este fin, usted decide tratar de predecir el GPA [matemático] C [/ matemático] futuro de la universidad de un postulante a partir de su GPA [matemático] H [/ matemático] de la escuela secundaria y su puntaje SAT [matemático] S [/ matemático].

Una manera simple de hacer esto es encontrar algunos números [matemática] a [/ matemática] y [matemática] b [/ matemática] para que [matemática] aH + bS [/ matemática] sea una buena predicción de [matemática] C [ /mates].

Pero, ¿cómo elegir [matemáticas] a [/ matemáticas] y [matemáticas] b [/ matemáticas]? Si tiene muchos datos de estudiantes anteriores (cuyos GPA universitarios son conocidos), puede probar diferentes valores de [matemáticas] a [/ matemáticas] y [matemáticas] b [/ matemáticas] hasta que obtenga los que hacen las predicciones lo más cerca posible de los valores verdaderos.

La forma estándar de hacer esto es elegir [matemática] a [/ matemática] y [matemática] b [/ matemática] para que la suma de las diferencias al cuadrado entre [matemática] C [/ matemática] y [matemática] aH + bS [/ math] en sus datos históricos es lo más pequeño posible. Este negocio de usar la diferencia al cuadrado es principalmente para que puedas resolver lo mejor [matemática] a [/ matemática] y [matemática] b [/ matemática] con algunas matemáticas muy simples. Con otro tipo de medida de error, es posible que deba buscar los mejores valores.

El “múltiple” en la regresión múltiple solo significa que tiene más de una variable que está utilizando para hacer predicciones. En este ejemplo son dos, pero podrías tener diez o cientos.

Hay mucho más que puedes decir: en un curso de estadística, generalmente modelarías el error en la relación lineal subyacente. Tal modelo se puede usar para derivar enunciados adicionales acerca de cuánto error hay en la estimación [matemática] a [/ matemática] y [matemática] b [/ matemática]. Pero esta es la idea principal.

La regresión multivariada es una extensión de la regresión lineal (y la regresión múltiple si hay múltiples predictores considerados en el modelo) a los resultados multivariados. Por ejemplo, uno podría estar interesado en cómo los factores de admisión impactan las calificaciones dentro de un conjunto de clases básicas para un programa dado. Digamos que estamos interesados ​​en el desempeño de los estudiantes de matemáticas en estadística, teoría de la probabilidad y un curso avanzado en estadísticas basadas en datos demográficos, puntajes SAT y GPA de secundaria. Se realizaría una regresión multivariada múltiple, ajustando un modelo de predictores a las calificaciones que una muestra de estudiantes había obtenido en esos 3 cursos. El resultado del modelo dará una estimación de los 3 grados, dado el conjunto de predictores. En lugar de predecir un vector a través de la ecuación de regresión, estaría prediciendo un espacio tridimensional.

Para comprender la regresión multivariada, comencemos discutiendo la regresión lineal en general.

A menudo, uno tiene un conjunto de datos de variables asociadas (por ejemplo, la altura, la edad y el peso de una persona) y quiere medir la fuerza de la asociación entre cada par de variables. La regresión lineal podría ayudar a analizar qué variables están más relacionadas. Alternativamente, uno podría tener una cantidad limitada de datos sobre una cantidad deseable, pero difícil de medir (físicamente desafiante, costosa, etc.) y uno desea desarrollar una ecuación predictiva para esa cantidad basada en variables fáciles de medir. Esto también podría beneficiarse de la regresión lineal.

Las técnicas de regresión se han desarrollado en múltiples campos con varios objetivos, por lo que la terminología a menudo es variada. Por ejemplo, los términos “entrada”, “predictor”, “regresor”, “variable explicativa” y “variable independiente” suelen ser sinónimos. Del mismo modo, los términos “salida”, “predicción”, “variable de respuesta” y “variable dependiente” a menudo son sinónimos. En mi opinión, el término “variable independiente” es a menudo una mala elección ya que el conjunto de “variables explicativas” a menudo puede no ser realmente variables aleatorias independientes. Pero este término todavía se usa ampliamente.

La regresión lineal simple [SLR] es el juego de ajustar una línea a una sola variable de salida dada una sola entrada: [matemática] y = \ alpha + \ beta * x [/ matemática]

La regresión lineal múltiple es cuando uno quiere retroceder linealmente una variable de salida contra múltiples entradas. Es similar a trazar una línea en un espacio (N + 1) -dimensional: [matemática] y = \ alpha_ {0} + \ alpha_ {1} x_ {1} + \ cdots + \ alpha_ {N} x_ {N }[/mates]

La regresión lineal multivariada —una regresión lineal general— es el método implementado cuando tiene múltiples variables de respuesta que desea hacer retroceder sobre uno o más predictores. En el caso más simple de regresión lineal general, uno tiene múltiples variables de salida regresadas contra una sola entrada. Esto es similar al cálculo multivariado en el que se trata de vectores de funciones en un solo parámetro, por ejemplo, tres componentes de campo vectorial que evolucionan con el tiempo.

More Interesting

¿Cuál es la diferencia entre el plan de datos 292 y 549 de BSNL?

¿Qué lenguaje de script puede funcionar con Big Data?

¿Cuál es el futuro del aprendizaje automático en las finanzas?

¿Por qué el Titanic de Kaggle: Machine Learning del desastre es un problema de aprendizaje supervisado?

¿Qué cursos debo hacer para convertirme en científico de decisiones?

Suponiendo que tiene habilidades de programación decentes (C ++, Java, C #) pero no es muy bueno con las estadísticas, ¿a qué cursos en línea (Coursera, etc.) debe un programador unirse para convertirse en un científico de datos?

¿Cuál es el valor de los datos? A medida que las empresas recopilan los datos de los consumidores, ¿cómo pueden los economistas calcular el valor de estos datos?

¿Crees que las herramientas basadas en la interfaz visual podrán / pueden igualar el poder del código?

¿Cuánto tiempo durará la exageración de la ciencia de datos antes de que se sature? ¿Y cuál podría ser la próxima tendencia?

¿Por qué algunos gerentes de contratación en ciencia de datos todavía están colgando sobre si tienes un doctorado o no?

¿El almacenamiento de datos y la inteligencia empresarial están relacionados con la ciencia de datos y, en caso afirmativo, cuánto?

¿Los gráficos circulares merecen su reputación actual como malas visualizaciones?

¿Cómo debo diseñar mi curso en visión artificial / aprendizaje automático / robótica para mi maestría en EE?

¿Qué es una explicación intuitiva de la pseudoreplicación?

Si puedo tomar Introducción al aprendizaje automático o un segundo curso de Estadísticas, pero no ambos, ¿cuál es mejor para la ciencia de datos?