¿Cómo validaría un modelo que creó para generar un modelo predictivo de una variable de resultado cuantitativa mediante regresión múltiple?

Asumiendo que ha creado un modelo. De lo contrario, debe verificar la multicolinealidad y verificar los errores estándar de los coeficientes (si tiene) para verificar las inestabilidades numéricas en el modelo. Y para validarlo, puede hacer lo siguiente.

Aplique el modelo en un conjunto de prueba y verifique las métricas de rendimiento: R² (coeficiente de determinación), error cuadrático medio (MSE), error absoluto medio (MAE), error absoluto medio (MedAE) y puntaje de regresión de varianza explicada (varianza_explicada).

R², el coeficiente de determinación. Proporciona una medida de qué tan bien es probable que el modelo prediga muestras futuras. La mejor puntuación posible es 1.0 y puede ser negativa (porque el modelo puede ser arbitrariamente peor). Un modelo constante que siempre predice el valor esperado de y, sin tener en cuenta las características de entrada, obtendría una puntuación R ^ 2 de 0.0.

MSE, MAE, MedAE

El MedAE es particularmente interesante porque es robusto para los valores atípicos. La pérdida se calcula tomando la mediana de todas las diferencias absolutas entre el objetivo y la predicción.

MSE, MAE y MedAE deben ser bajos.

Varianza explicada

La mejor puntuación posible para la varianza_explicada es 1.0, los valores más bajos son peores.


Referencia:

3.3. Evaluación del modelo: cuantificar la calidad de las predicciones

http://support.sas.com/resources…


¡Espero eso ayude!

Puede tener un conjunto de datos de entrenamiento y un conjunto de datos de prueba. Tendrá que construir / entrenar el modelo en el conjunto de entrenamiento y hacer predicciones sobre el conjunto de prueba correcto.

Lo que generalmente hace la gente es:

  1. Divide tu conjunto de entrenamiento en 2 subconjuntos
  1. Train_New (60% -80% de sus datos de tren)
  2. Conjunto de validación (20% -40% de los datos de su tren) (funciona como un proxy para su conjunto de prueba)
  • Ahora construye su modelo en los datos “Train_New” y verifica lo siguiente en caso de regresión múltiple:
    1. R cuadrado ajustado (use esto en su lugar si solo R cuadrado)
    2. Observe la importancia general del modelo observando la estática F del modelo.
    3. Graficar residuales y verificar homosedacidad / hetrosedacidad
    1. etcétera etcétera.
  • Ahora es la parte principal (hacer el análisis del conjunto de validación)
    1. Hacer predicciones sobre este conjunto
    2. Obtenga el RMSE (error cuadrático medio) (diría que esta es la parte más importante que debe buscar)
    3. Aplique la lógica empresarial teniendo en cuenta el problema que está tratando de resolver y vea si RMSE tiene sentido (si no, intente afinar aún más su modelo)
    1. RMSE dice qué tan lejos estás de los valores reales
  • Si está satisfecho con el RMSE, haga predicciones sobre el conjunto de pruebas que tenía.
  • Este es un enfoque simple para validar su modelo. Las técnicas avanzadas implementarán un CV repetido (validación cruzada) en los datos y otras cosas.

    Espero haber agregado algo de valor.

    Saludos,

    El primer paso es asegurarse de no utilizar todos sus datos para construir el modelo, sino solo algunos para construir / entrenar y luego el resto para validarlo.

    Puede revisar los residuos de su modelo en ambos conjuntos de datos y ver otros parámetros como R cuadrado y error estándar.

    Asegúrate de no sobreajustar tu modelo.

    Si desea modelar una variable dependiente cualitativa como sí / no, utilice la regresión logística.


    Que te diviertas !