En Python, ¿cómo puedo probar y asegurarme de que mi modelo predice datos correctamente? (principiante preguntando)

Necesita un conjunto de pruebas para evaluar la fuerza y la utilidad de su modelo de aprendizaje automático.

Esencialmente, un conjunto de prueba son los datos que su modelo (o usted) no ha visto, mientras que el conjunto de entrenamiento son los datos en los que realiza el ajuste (regresión lineal, por ejemplo). Por lo general, su rendimiento en el conjunto de pruebas es una buena indicación de cómo se desempeñará su modelo en datos reales y desconocidos.

Por ejemplo, en esta demostración [1], tenga en cuenta las siguientes líneas:

# Divide los datos en conjuntos de entrenamiento / prueba
diabetes_X_train = diabetes_X [: – 20]
diabetes_X_test = diabetes_X [-20:]

# Divide los objetivos en conjuntos de entrenamiento / prueba
diabetes_y_train = diabetes.target [: – 20]
diabetes_y_test = diabetes.target [-20:]

¿Qué es un conjunto de datos de entrenamiento y un conjunto de datos de prueba en el aprendizaje automático? ¿Cuáles son las reglas para seleccionarlos?

Conjuntos de datos de entrenamiento y prueba

Tenga en cuenta que un conjunto de prueba es diferente del conjunto de validación. Un conjunto de validación sigue siendo parte del conjunto de entrenamiento, que usted usa para ajustar los parámetros de su modelo.

Notas al pie

[1] Ejemplo de regresión lineal

Related Content

¿El análisis complejo es relevante para el aprendizaje automático?

¿Cuál es el mejor software de reconocimiento facial en el mercado?

¿Qué aplicaciones prácticas ve para ejecutar los modelos TensorFlow en un teléfono inteligente?

Cómo extender una red neuronal profunda que se capacitó en la inclusión de palabras en inglés como entrada en una tarea de clasificación a multilingüe

Si la tasa de predicción de un algoritmo de aprendizaje automático mantiene porcentajes bajos (50% a 60%) en un conjunto de datos, ¿cómo puedo mejorar?

¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

¿Cuáles son los beneficios de usar ReLU sobre softplus como funciones de activación?

Tal vez un simple error de porcentaje medio absoluto haría?

yn es el número de muestras predichas.

Error porcentual absoluto medio

El error porcentual absoluto medio (MAPE), también conocido como desviación porcentual absoluto medio (MAPD), es una medida de la precisión de la predicción de un método de pronóstico en estadística, por ejemplo, en la estimación de tendencias.

Benjamin Wiseman

Tendría que ver su código antes de hablar con autoridad, pero esa es la esencia. Algunos pasos básicos del flujo de trabajo:

División de tren / prueba, tal vez deje un conjunto de reserva para validación
Cree un modelo, ajuste los hiperparámetros según sea necesario
Utilice el conjunto de prueba para verificar la precisión / resultados
Visualizar
Validación establecida para confirmar resultados

Ah, y si estás haciendo un problema de clasificación (aunque parece que tienes un problema de regresión), la matriz de confusión de sklearn es tu amigo.

Benjamin Wiseman

Sí, comience con la validación prolongada. Básicamente, ese es un subconjunto de sus datos y déjelos a un lado: su conjunto de validación. Entrene a su modelo de modo que nunca “vea” el conjunto de validación, y luego aplique su modelo al conjunto de validación. Si su modelo funciona, debería poder predecir bien sus datos de validación.

Benjamin Wiseman

More Interesting

¿Debería centrarme en conseguir un trabajo o aprender ciencia de datos?

¿Por qué los investigadores de sistemas informáticos no creen en la IA o la aplican a problemas en los 'sistemas informáticos'?

¿Cuáles son las diferencias entre la red neuronal artificial (informática) y la red neuronal biológica?

¿Cuál es el potencial de las redes neuronales en la compresión de datos?

¿Por qué es popular el aprendizaje profundo?

¿Cuál es una pista adecuada para la clasificación de documentos con MATLAB?

¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

¿Qué son los vectores de características basados en cuadros (como se usan en el reconocimiento de voz)?

¿Qué algoritmo de aprendizaje automático puede dar la mejor solución para la clasificación no lineal?

Al cambiar de plataforma, ¿cómo se debe planificar con anticipación para garantizar que el almacenamiento y el análisis de datos se mantengan rápidos y eficientes?

¿Qué algoritmos de aprendizaje automático utilizan servicios como wit.ai y api.ai?

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?

Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

¿Qué debe hacer un estudiante de diploma para aprender software o aprendizaje automático?

¿Qué tan bueno es el programa de maestría en visión por computadora de la Universidad Autónoma de Barcelona en términos de contenido, costo y futura carrera (directamente trabajo o doctorado)?

Web Analytics