¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?

Si el resultado que obtuvimos fue en datos que nunca utilizamos para entrenar el modelo o sus hiperparámetros, entonces ese resultado del 80% es de hecho la tasa de éxito de predicción del modelo y el error del 20% es la tasa de error del modelo. Aquí hay dos casos, aunque la conclusión aún sería correcta.

Caso 1. Partimos nuestros datos en tres conjuntos y realizamos la validación y las pruebas de capacitación.

Entonces, digamos que teníamos 100,000 tweets con dos etiquetas ( digamos tweet positivo y negativo) , y lo dividimos en

  • 60,000 para entrenar a nuestro modelo ( digamos una red neuronal ), es decir, dejar que los parámetros del modelo aprendan de los 60,000 tweets etiquetados
  • otros 20,000 para validar los hiperparámetros del modelo ( número de capas, etc. )
  • otros 20,000 por solo probar nuestro modelo. Si encontramos que 4,000 tweets se clasificaron erróneamente ( 20% de 20,000 ), entonces esa es la tasa de error de nuestro modelo. Esta tasa de error indica la probabilidad de que nuestro modelo funcione cuando vea tweets adicionales que nunca antes había visto.
  • Una cosa que deberíamos evitar incluso hacer accidentalmente es dejar que el modelo vea estos 20,000 datos de prueba tanto en la fase de capacitación como de validación. Si lo hiciéramos, nuestra predicción de tasa de error del 20% ya no tendría sentido. Es decir, ya no refleja cómo es probable que funcione el modelo cuando ve datos que nunca antes había visto.

Caso 2. Simplemente tomamos un modelo previamente entrenado y lo usamos con nuestros datos y obtuvimos un 20% de error.

  • Si bien podemos afirmar que el modelo se realizó con una tasa de error del 20% con nuestros datos, es correcto que aún establezcamos cuál fue la tasa de error proclamada del modelo por aquellos que la publicaron. Da una idea de cuál fue la tasa de error que observamos en relación con el rendimiento del modelo cuando se probó.

¿Es posible? Tal vez, si su criterio de éxito hace que un tweet determinado sea correcto o incorrecto. Si está entrenando el modelo en modo por lotes, probablemente sería mejor dividir sus datos en entrenamiento / validación / prueba en el extremo frontal de su tubería. Use el entrenamiento para entrenar, la validación para establecer hiperparámetros y pruebe solo cuando crea que tiene un buen modelo. También puede comparar los resultados de los conjuntos de datos para diagnosticar problemas. Si analiza errores en los datos de entrenamiento, las correcciones necesarias podrían crear un problema de sobreajuste.

Es bastante posible, pero no he experimentado tal situación hasta ahora, porque cuando divide el conjunto de datos, la proporción de las etiquetas permanece igual, por lo tanto, los predictores predicen similares a cada uno de los conjuntos de datos. Pero dado que la división de datos es aleatoria, puede experimentarla, pero rara vez.