¿Cuál es el propósito del análisis de regresión?

La regresión es el proceso de ajustar una función continua (aproximada) a un conjunto de puntos de datos independientes.
Esto es útil para aproximar valores dependientes (y) para valores independientes (x) que no están presentes en el conjunto de datos. Incluso puede usar esta curva de regresión para predecir valores de y para x que están fuera del rango del conjunto de datos actual (extrapolación).

Existen diferentes tipos de funciones que podría ajustar a los datos para proporcionar las mejores aproximaciones, incluidas las cuadráticas, cúbicas, cuárticas, de potencia, logarítmicas y otras.

Regresión lineal

Fuente: Los ácidos grasos de la leche materna pueden vincular la regulación inmune innata y adaptativa: análisis de CD14 soluble, prostaglandina E2 y ácidos grasos

Puede trazar el gráfico residual, que es igual a y (x) – y_approximado (x) para cada x. Si esta gráfica está dispersa aleatoriamente, esto significa que el tipo de función elegido encaja bien.

Si hay un patrón en la gráfica, podría haber un mejor tipo de función para elegir para los datos.

Fuente: Parcela residual: definición

Además de las excelentes respuestas ya dadas a la pregunta, me gustaría agregar que la regresión le permite estimar la relación entre variables de una manera que le permite obtener un vector o escalar por la forma en que se afectan entre sí.

Por ejemplo, si tiene una distribución normal que no viola los supuestos de la regresión OLS, puede obtener un parámetro llamado beta ( β ) que puede ser un vector o escalar, y que le permite poner un número ( dentro de un intervalo de confianza, por supuesto) sobre la relación entre esas variables. Puede simplificar enormemente la ponderación de varios modelos de esa manera, así como simplificar enormemente un examen del efecto de varias variables independientes sobre las variables dependientes. Una vez que se tiene el parámetro beta (generalmente calculado para todo el modelo, así como de forma independiente para cada variable independiente y la variable dependiente), así como el intervalo de confianza, la significación estadística y los datos sobre si las variables independientes tienen o no linealidad, tiene suficiente información para tomar decisiones bastante informadas sobre la relación entre las variables independientes y dependientes.

Hay algo de problema en que la regresión clásica supone que el error (siempre presente en alguna forma) es aleatorio y no sistemático (sin errores de Tipo 1), que el error no está correlacionado (los errores no se afectan entre sí), que el La variación en el error es constante (piense en el error como un zumbido de fondo, sin saltos repentinos en tono y volumen), y que no hay error de medición al recopilar los datos en las variables independientes. Sin embargo, las actualizaciones recientes de los métodos de regresión permiten técnicas específicas para manejar violaciones de cualquiera de estos supuestos, lo que hace que la regresión sea bastante flexible.

La versión tl; dr: regresión le permite poner números en las relaciones, decidir si las relaciones son significativas o no, para ver si las relaciones se complican por la interferencia entre sus variables independientes y para ver su error (la mayoría de los análisis de regresión se ejecutan una matriz de varianza / covarianza en el error.) Es una ventanilla única para comprender la relación entre las variables.

Desafortunadamente, según mi experiencia, cuando se enseña la regresión, su flexibilidad y su asombro total no son realmente parte del plan de la lección, así que si estás en una clase donde se enseña la regresión, debes saber que es mucho más interesante de lo que es presentado para ser.

En palabras simples: el propósito del análisis de regresión es predecir un resultado basado en datos históricos. Estos datos históricos se entienden mediante el análisis de regresión y esta comprensión nos ayuda a construir un modelo para predecir un resultado basado en este modelo de regresión. Nos ayuda a predecir y es por eso que se llama modelo de análisis predictivo.

Ejemplo: si quiero predecir qué tipo de personas compran un vino. Encontraría datos sobre personas que compran vino. Su edad, altura, estado financiero, etc. Así que analizando estos datos puedo construir un modelo para predecir si una persona compraría vino o no.

Por lo tanto, el análisis de regresión se utiliza para predecir el comportamiento de una variable dependiente (personas que compran un vino) en función del comportamiento de unos pocos / grandes no. de variables independientes (edad, estatura, estado financiero).

Además de las excelentes respuestas, una de las razones clave para usar el análisis de regresión es esta:

Una ecuación de regresión lineal proporciona una comprensión intuitiva de la relación entre las variables dependientes e independientes, a diferencia de otras técnicas de recuadro negro.

Lo que esto significa es que al observar la ecuación de regresión lineal, una vez se puede ver de inmediato cómo una variable particular afecta el resultado.

Un signo positivo del coeficiente para una variable (x) denota que a medida que x aumenta, y aumenta. Un signo negativo denota y disminuye a medida que x aumenta.

Del mismo modo, un valor alto para un coeficiente (otros coeficientes wrt altos) denota que las variables particulares tienen un efecto muy grande en la determinación del resultado.

Estas ideas pueden ayudar al modelista a validar el modelo contra el conocimiento comercial común. ¿Tiene sentido el signo / magnitud de un coeficiente?

Por ejemplo, si estamos desarrollando un modelo de puntaje de crédito, entonces un ingreso más alto (generalmente) conduce a un mejor puntaje. Por lo tanto, el signo del coeficiente de ingreso debería ser positivo, y la magnitud debería ser bastante grande.

En el sentido más general, el análisis de regresión se trata de relacionar variables dependientes con variables independientes.

Cuando se usa sin ningún calificador, el “análisis de regresión” generalmente se refiere al caso con una variable dependiente y una o más variables independientes. Dentro de eso, hay métodos para diferentes tipos de variables dependientes: continuo, recuento, tiempo, categórico. Escribí más sobre esto en mi blog:

¿Qué tipo de regresión debo elegir? Página en statisticalanalysisconsulting.com

More Interesting

Cómo comenzar a implementar un sistema de recomendación para juegos

¿Cuáles son las aplicaciones más interesantes del aprendizaje automático en espacios inesperados?

¿Cuáles son las 8 principales cosas para las que las startups utilizan el aprendizaje automático?

¿Qué es el reconocimiento óptico de caracteres (OCR)?

¿Está nuestro cerebro conectado para reconocer y admirar la simetría o otros animales también muestran rasgos similares?

¿Debería aprender aprendizaje automático, desarrollo en la nube o desarrollo de juegos en Unity como estudiante universitario de primer año?

¿Necesito visión artificial para leer texto simple en imágenes?

¿Cuáles son los mejores laboratorios de investigación en el campo de los UAV combinados con aprendizaje automático, visión y percepción por computadora?

¿Se está saturando el aprendizaje automático como campo de investigación?

¿Hay alguna universidad en la India que ofrezca cursos a corto plazo sobre aprendizaje automático / ciencia de datos?

¿Qué libro de los dos es más completo para PNL: el de Jurafsky o el de Manning?

¿Cómo se infiere la distribución posterior marginal?

¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?

¿Hay alguna empresa de software en Bangladesh que trabaje con ciencia de datos / ML / ANN / Visión por computadora?

¿Cómo se actualizan los pesos en la red neuronal probabilística?