¿Cómo validaría un modelo que creó para generar un modelo predictivo de una variable de resultado cuantitativa mediante regresión múltiple?

Asumiendo que ha creado un modelo. De lo contrario, debe verificar la multicolinealidad y verificar los errores estándar de los coeficientes (si tiene) para verificar las inestabilidades numéricas en el modelo. Y para validarlo, puede hacer lo siguiente.

Aplique el modelo en un conjunto de prueba y verifique las métricas de rendimiento: R² (coeficiente de determinación), error cuadrático medio (MSE), error absoluto medio (MAE), error absoluto medio (MedAE) y puntaje de regresión de varianza explicada (varianza_explicada).

R²

R², el coeficiente de determinación. Proporciona una medida de qué tan bien es probable que el modelo prediga muestras futuras. La mejor puntuación posible es 1.0 y puede ser negativa (porque el modelo puede ser arbitrariamente peor). Un modelo constante que siempre predice el valor esperado de y, sin tener en cuenta las características de entrada, obtendría una puntuación R ^ 2 de 0.0.

MSE, MAE, MedAE

El MedAE es particularmente interesante porque es robusto para los valores atípicos. La pérdida se calcula tomando la mediana de todas las diferencias absolutas entre el objetivo y la predicción.

MSE, MAE y MedAE deben ser bajos.

Varianza explicada

La mejor puntuación posible para la varianza_explicada es 1.0, los valores más bajos son peores.

Referencia:

3.3. Evaluación del modelo: cuantificar la calidad de las predicciones

http://support.sas.com/resources…

¡Espero eso ayude!

Related Content

¿Cuál puede ser un buen problema de investigación computacional para trabajar con el conjunto de datos de Wikipedia?

¿Por qué las redes de confrontación generativas son tan creativas?

¿Hay alguna manera de hacer una clasificación de múltiples etiquetas en los árboles de decisión usando R / Python?

¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?

¿Con qué facilidad pueden los actuarios cambiar a carreras relacionadas con TI como la ciencia de datos, el aprendizaje automático y el desarrollo de software?

¿Qué es el aprendizaje automático en tiempo real?

Tengo una cámara Canon 6D. ¿Qué lentes debo comprar para documentales en video?

Puede tener un conjunto de datos de entrenamiento y un conjunto de datos de prueba. Tendrá que construir / entrenar el modelo en el conjunto de entrenamiento y hacer predicciones sobre el conjunto de prueba correcto.

Lo que generalmente hace la gente es:

Divide tu conjunto de entrenamiento en 2 subconjuntos

Train_New (60% -80% de sus datos de tren)
Conjunto de validación (20% -40% de los datos de su tren) (funciona como un proxy para su conjunto de prueba)

Ahora construye su modelo en los datos “Train_New” y verifica lo siguiente en caso de regresión múltiple:

R cuadrado ajustado (use esto en su lugar si solo R cuadrado)
Observe la importancia general del modelo observando la estática F del modelo.
Graficar residuales y verificar homosedacidad / hetrosedacidad

etcétera etcétera.

Ahora es la parte principal (hacer el análisis del conjunto de validación)

Hacer predicciones sobre este conjunto
Obtenga el RMSE (error cuadrático medio) (diría que esta es la parte más importante que debe buscar)
Aplique la lógica empresarial teniendo en cuenta el problema que está tratando de resolver y vea si RMSE tiene sentido (si no, intente afinar aún más su modelo)

RMSE dice qué tan lejos estás de los valores reales

Si está satisfecho con el RMSE, haga predicciones sobre el conjunto de pruebas que tenía.

Este es un enfoque simple para validar su modelo. Las técnicas avanzadas implementarán un CV repetido (validación cruzada) en los datos y otras cosas.

Espero haber agregado algo de valor.

Saludos,

ADITYA SHARMA

El primer paso es asegurarse de no utilizar todos sus datos para construir el modelo, sino solo algunos para construir / entrenar y luego el resto para validarlo.

Puede revisar los residuos de su modelo en ambos conjuntos de datos y ver otros parámetros como R cuadrado y error estándar.

Asegúrate de no sobreajustar tu modelo.

Si desea modelar una variable dependiente cualitativa como sí / no, utilice la regresión logística.

Que te diviertas !

Nigel Clark

More Interesting

¿Qué debo hacer si determino que los resultados de mi conjunto de datos de entrenamiento difieren mucho de los resultados de mi conjunto de datos de prueba?

Cómo construir y ejecutar mi primera red de aprendizaje profundo

¿Cómo puedo aprender ciencia de datos?

¿Cuáles son algunos de los mejores programas de posgrado de aprendizaje automático que no requieren un título universitario de CS?

¿Se usa el álgebra abstracta en el aprendizaje automático?

¿Cómo podría el aprendizaje automático mejorar la nariz electrónica?

¿Cómo debo proceder después de completar el curso de aprendizaje automático de Andrew Ng?

Aprendizaje automático: ¿Puede alguien que es horrible en los concursos de kaggle seguir siendo bueno como científico de datos?

¿Cómo aprendiste el aprendizaje automático? ¿Por qué?

¿Qué es el procesamiento de señales y cómo se relaciona con el aprendizaje automático?

¿Qué son los sistemas de detección?

¿Hay algún resumen de las mejores modelos para el premio de Netflix? ¿Cuáles son las ideas de alto nivel e intuitivas detrás de los modelos ganadores que finalmente fueron utilizados en el aprendizaje conjunto por los mejores equipos?

¿Cuáles son algunos buenos métodos para el procesamiento previo de datos en el aprendizaje automático?

¿Por qué los NN recurrentes son tan susceptibles al problema del gradiente de fuga?

¿Cuándo debo coseno similitud? ¿Se puede usar para la agrupación?

Web Analytics