Asumiendo que ha creado un modelo. De lo contrario, debe verificar la multicolinealidad y verificar los errores estándar de los coeficientes (si tiene) para verificar las inestabilidades numéricas en el modelo. Y para validarlo, puede hacer lo siguiente.
Aplique el modelo en un conjunto de prueba y verifique las métricas de rendimiento: R² (coeficiente de determinación), error cuadrático medio (MSE), error absoluto medio (MAE), error absoluto medio (MedAE) y puntaje de regresión de varianza explicada (varianza_explicada).
R²
- ¿Cuál es la mejor tarjeta gráfica para tareas de aprendizaje automático / Big Data?
- ¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?
- ¿Cuál es la diferencia entre neurociencia, neurobiología, neuroingeniería y neuropsicología?
- ¿Cuáles son las principales diferencias entre TensorFlow y SciKit Learn?
- ¿Podemos usar GridSearchCV () en CountVectorizer () cuando usamos modelos scikit-learn en datos de texto, o la búsqueda en cuadrícula solo se puede ejecutar en los modelos predictivos?
R², el coeficiente de determinación. Proporciona una medida de qué tan bien es probable que el modelo prediga muestras futuras. La mejor puntuación posible es 1.0 y puede ser negativa (porque el modelo puede ser arbitrariamente peor). Un modelo constante que siempre predice el valor esperado de y, sin tener en cuenta las características de entrada, obtendría una puntuación R ^ 2 de 0.0.
MSE, MAE, MedAE
El MedAE es particularmente interesante porque es robusto para los valores atípicos. La pérdida se calcula tomando la mediana de todas las diferencias absolutas entre el objetivo y la predicción.
MSE, MAE y MedAE deben ser bajos.
Varianza explicada
La mejor puntuación posible para la varianza_explicada es 1.0, los valores más bajos son peores.
Referencia:
3.3. Evaluación del modelo: cuantificar la calidad de las predicciones
http://support.sas.com/resources…
¡Espero eso ayude!