Entonces, supongamos que tiene un conjunto de datos para el que está creando un modelo de predicción de algún tipo. Por lo general, divide el conjunto de datos en datos de entrenamiento y prueba . Los datos de entrenamiento serán la mayoría de sus datos, ya que informarán los detalles de su modelo.
Una vez que haya entrenado adecuadamente su modelo y esté listo para la prueba, aquí es donde entran sus datos de prueba. Dicho esto, los datos de prueba son la parte de sus datos que deja para verificar qué tan bien está funcionando su modelo. Esto es independiente de sus datos de entrenamiento porque las pruebas en sus datos de entrenamiento siempre darán como resultado una precisión del 100% ya que predicen datos que ya se han visto. Esta es la razón por la cual los datos de prueba son tan importantes: ¡proporcionan información sobre qué tan bien (o no bien) está funcionando su modelo!
- ¿Por qué debería usar anaconda en lugar de las distribuciones tradicionales de Python para la ciencia de datos?
- ¿Cómo está transformando el análisis de datos el mundo?
- Cómo proceder para obtener datos registrados en los parámetros de un equipo de Minería usando sensores
- ¿Cuáles son las API de aprendizaje automático que puedo usar para analizar la calidad de los datos?
- ¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?