¿Cuál es el siguiente paso después de descargar un conjunto de datos sobre regresión?

¿Qué analizamos? – Si no sabemos esto, ¿por qué recopilamos los datos? Como buena práctica El primer paso de nuestro análisis de datos es qué queremos analizar en lugar de recopilar los datos. Podemos ayudar a las PYME en esto.

¿Cómo comenzamos y puntos cruciales? Tomemos un caso de regresión lineal. Entonces, cuando usamos la regresión lineal, una parte crítica del proceso consiste en verificar para asegurarse de que los datos que queremos analizar puedan analizarse realmente con esta prueba. En el caso de la regresión lineal, debemos tener en cuenta algunos supuestos.

  1. Variable dependiente continua
  2. Variable independiente continua

Si no cumplimos con los dos supuestos anteriores, entonces debemos seleccionar alguna otra prueba estadística para analizar nuestros datos, ya que el uso de la regresión lineal es una prueba estadística incorrecta para analizar nuestros datos.

  1. Relación lineal entre la variable dependiente e independiente. Error de trazado V / s Relación del predictor. Si no hay un patrón discernible, pase al siguiente paso. Si encontramos algún patrón discernible, entonces tenemos que usar la transformación no lineal de los predictores y volver a verificar este paso nuevamente para verificar el requisito.
  2. Verifique la correlación del error de datos. La presencia de correlación entre los términos de error disminuye el error estándar de los coeficientes del modelo, lo que resulta en una disminución del valor p, CI y PI. Esto nos da una sensación de confianza injustificada en nuestro modelo. Si estamos seguros de que nuestros datos se ingresaron de manera oportuna, es decir, la primera entrada en la primera fila y la segunda entrada en la segunda fila, etc. Entonces podemos usar la estadística de Durbin-Watson para verificar nuestra correlación entre el término de error. Sus valores pueden variar de 0 a 4. Un valor de 2 indica que no hay correlación entre los residuos.
  3. Verifique los valores atípicos.
  4. Comprobación de homocedasticidad. Indica que la varianza de los errores es constante en todos los valores de la variable independiente. Podemos trazar valores residuales v / s valores predichos. Por lo general, buscamos la presencia de forma de embudo en la trama y, si está presente, si encontramos que no tenemos homocedasticidad, entonces debemos tomar alguna medida correctiva. No existen. de enfoques para resolver este problema. Podemos ejecutar a) transformación de nuestra variable tanto independiente como dependiente b) ejecutar una regresión con errores estándar robustos c) ejecutar una regresión robusta d) Ecuación de regresión de mínimos cuadrados ponderados
  5. Compruebe si los errores de la línea de regresión se distribuyen aproximadamente de manera normal o no. (Control de inclinación y curtosis)
  6. Comprobación de valores perdidos. Si podemos perder el valor, entonces podemos eliminarlos o completar otros valores en su lugar. Existen varios métodos para completar los valores faltantes. Un enfoque de principiante es llenar el valor faltante con el promedio de todos los demás valores.

Después de ejecutar la prueba de supuestos si sus datos cumplen con todos los supuestos, puede usar cualquier software estadístico para obtener nuestro modelo. Si no tenemos entrenamiento y conjunto de pruebas, entonces podemos dividir nuestros datos en una proporción para obtener el conjunto de entrenamiento y el conjunto de prueba.

Después de obtener nuestro resultado, necesitamos verificar el valor p y el valor R cuadrado para concluir la importancia y la previsibilidad de nuestro modelo. Si todos son significativos, entonces podemos usar nuestro modelo para verificar nuestra previsibilidad en el conjunto de pruebas. Ahora hemos terminado con nuestro modelo

Primero, te daré los pasos que pediste:

  1. Descargue los datos, guarde un archivo de datos en la máquina local y ábralo en su herramienta. (Usaré R, por ejemplo)
  2. Ahora vea los datos, columna por columna. ¿Faltan números? ¿Hay algún dato incorrecto en las filas? Errores de ortografía? Cualquier cosa que vea en la columna que no debería estar allí. También puede usar Excel para esta tarea, funciones dinámicas y gráficos de barras simples.
  3. Ahora decida cuál es su columna de destino. Una vez que decida, ahora verifique todas las demás columnas. Aquí necesita algunos conocimientos de dominio sobre los datos que descargó. Para las columnas de destino, ¿qué columnas / variables pueden estar afectando a su variable de destino?
  4. Para R, use la función Cor () y Pair () para ver si realmente están impactando, si hay una relación, los valores de p serán muy pequeños o menos cero. En R si ve *** junto a su variable, es evidente que son importantes y tiene alguna correlación.
  5. Ahora corte los datos, al azar. mantener 70% en una parte y 30% en otro archivo. En gran parte, lo llamamos datos de entrenamiento.
  6. Ahora escriba una expresión de regresión en los datos de entrenamiento. en R, tiene un solo comando para ejecutarlo, puede verificarlo en google. En Minitab, las cosas se ponen bastante fáciles. Explora eso.
  7. Ahora ejecute el comando de predicción en los datos de prueba. Verifique los resultados / resumen. ¿Es el error lo suficientemente pequeño?

Si no, ve al paso 4 nuevamente. Revise su otra variable que puede estar impactando.

Esta es una versión demasiado simplificada de lo que hacemos. Para una mayor exploración, recomendaré seguir a los R-bloggers y para fines de tutoría y ejemplos, visite el blog de Trevor Stephens.

  1. Explore el conjunto de datos. Cómo se ve su variable (datos continuos o discretos).
  2. Identifique cuáles son sus variables independientes y cuáles son sus variables dependientes (qué va a predecir y qué es útil para predecir esa variable).
  3. Compruebe si hay valores atípicos (los datos que están fuera del rango de valores). El diagrama de caja será útil para obtener los valores atípicos.
  4. Identifique si existe alguna correlación entre las variables (si existe una correlación, entonces no puede identificar cuál de las dos variables es útil para predecir la variable de salida).
  5. Identifique si faltan valores. En caso afirmativo, elija la imputación media o mediana (si se trata de datos continuos) y la imputación de modo (si los datos tienen datos discretos).
  6. Una vez que su conjunto de datos esté listo, si la variable de salida son datos continuos (ventas o precio de la vivienda), realice una regresión lineal múltiple, si la variable de salida es dicotómica (como Sí o No), realice una regresión logística.
  7. Obtenga las variables significativas (basadas en los valores de p).
  8. Cree un modelo solo con esas variables significativas
  9. Calcule la R al cuadrado ajustada si la regresión lineal múltiple y la pseudo R al cuadrado si es la regresión logística.
  10. Ir a la transformación si R al cuadrado es demasiado bajo y las variables de entrada son demasiado grandes

Supongo que su pregunta es sobre la regresión en general. Se beneficiaría del libro del Dr. Field Descubriendo estadísticas usando IBM SPSS Statistics. o visite SPSS Statistics Tutorials and Statistical Guides para comprender e informar el resultado. He encontrado estos recursos extremadamente útiles.