Aquí hay un ejemplo que puede ayudarlo a comprender la regresión.
Suponga que desea predecir el ingreso anual de: edad, años de educación e coeficiente intelectual
Su análisis de regresión usaría el ingreso como variable dependiente y la edad, los años de educación y el coeficiente intelectual como predictores.
- ¿Cómo es un proyecto de visión por computadora "típico", de principio a fin?
- ¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?
- ¿Pueden los algoritmos de aprendizaje automático realmente ayudar en el comercio?
- ¿Realizar el blanqueamiento de datos antes del entrenamiento mejora la capacidad de generalización de un SVM?
- ¿Cómo se calcula el subconjunto de vocabulario en 'Al usar vocabulario de objetivos muy grandes para la traducción automática neuronal'?
El análisis de regresión le indica cuánta información predictiva se asocia de manera única con cada predictor cuando controla, elimina o “elimina” parcialmente cualquier superposición o correlación con todos los demás predictores.
Entonces la edad se evalúa controlando por años de educación y coeficiente intelectual
Los años de educación se evalúan controlando la edad y el coeficiente intelectual
El coeficiente intelectual se evalúa controlando por edad y años de educación
(El coeficiente intelectual podría estar correlacionado con años de educación, por ejemplo, si las personas con un coeficiente intelectual más alto tienden a tomar más años de educación).
Obtiene varios tipos diferentes de información para cada predictor:
1)
Coeficiente de pendiente (para un aumento de un año en años de educación, ¿cuántos dólares tiende a aumentar el ingreso anual en promedio, cuando se han eliminado las contribuciones de edad y coeficiente intelectual)? (tanto el coeficiente estandarizado o beta, como una pendiente de “puntaje bruto”).
2)
Una prueba de significación estadística y valor p. ¿Esto puede usarse para juzgar si la contribución predictiva es “estadísticamente significativa”? (Muchas personas ahora piensan que las pruebas de significación estadística se han exagerado en el pasado y que hay problemas con esto).
3)
Un tamaño del efecto (¿qué proporción de la variación en el salario es predecible de forma única a partir de años de educación cuando los otros predictores están controlados estadísticamente?) )
Hay muchas advertencias. Primero, no puede extraer inferencias causales de este tipo de análisis porque se basa en correlaciones entre variables (no en manipulaciones experimentales). En segundo lugar, la importancia aparente de las variables predictoras diferirá entre las diferentes muestras y grupos de personas (debido al error de muestreo y también debido a que estas variables tienen diferentes asociaciones entre sí en diferentes culturas o grupos). Tercero, si agrega o elimina variables predictoras, las contribuciones de las variables predictoras en el análisis generalmente cambiarán. Por lo tanto, cualquier inferencia que haga sobre la importancia de una variable predictiva particular depende del contexto: el contexto significa la composición de su muestra, la forma en que midió variables como el coeficiente intelectual y el conjunto de variables que se incluyen / excluyen.
Por lo tanto, es importante no ‘sobreinterpretar’ los resultados de la regresión. Son sugerentes pero no son prueba de nada.
También tenga en cuenta que hay muchos supuestos sobre los datos que deben cumplirse para usar la regresión (si no lo son, los resultados serán engañosos). Los supuestos más importantes son que los puntajes en todas las variables están normalmente distribuidos, y que todos los pares de variables están LINEALMENTE relacionados; Si estudia la regresión con más detalle, hay suposiciones adicionales que desearía verificar.
Por lo tanto, el beneficio de la regresión es que puede ayudarlo a comprender (en cierta medida) cuánto contribuye cada variable predictiva cuando intenta predecir puntajes en una variable de resultado. También proporciona información (R múltiple) sobre qué tan bien puede predecir los puntajes en la variable de resultado cuando utiliza todo el conjunto de variables predictoras.
Espero que esto sea útil.