Si el resultado que obtuvimos fue en datos que nunca utilizamos para entrenar el modelo o sus hiperparámetros, entonces ese resultado del 80% es de hecho la tasa de éxito de predicción del modelo y el error del 20% es la tasa de error del modelo. Aquí hay dos casos, aunque la conclusión aún sería correcta.
Caso 1. Partimos nuestros datos en tres conjuntos y realizamos la validación y las pruebas de capacitación.
Entonces, digamos que teníamos 100,000 tweets con dos etiquetas ( digamos tweet positivo y negativo) , y lo dividimos en
- ¿Cuáles son las habilidades valiosas necesarias para comenzar con Data Analytics?
- ¿Qué estudios / clases universitarias son críticos para distinguir un verdadero programa de Ciencia de Datos de Business Analytics?
- ¿Es la ciencia de datos el fin de las estadísticas?
- ¿Hay algún software de Big Data de código abierto disponible en este momento?
- Si pudiera contratar a 4/5 científicos / ingenieros para un equipo de análisis de big data centrado en elegir y responder preguntas comerciales concretas (por ejemplo, predecir una solicitud de producto), ¿cómo lo construiría?
- 60,000 para entrenar a nuestro modelo ( digamos una red neuronal ), es decir, dejar que los parámetros del modelo aprendan de los 60,000 tweets etiquetados
- otros 20,000 para validar los hiperparámetros del modelo ( número de capas, etc. )
- otros 20,000 por solo probar nuestro modelo. Si encontramos que 4,000 tweets se clasificaron erróneamente ( 20% de 20,000 ), entonces esa es la tasa de error de nuestro modelo. Esta tasa de error indica la probabilidad de que nuestro modelo funcione cuando vea tweets adicionales que nunca antes había visto.
- Una cosa que deberíamos evitar incluso hacer accidentalmente es dejar que el modelo vea estos 20,000 datos de prueba tanto en la fase de capacitación como de validación. Si lo hiciéramos, nuestra predicción de tasa de error del 20% ya no tendría sentido. Es decir, ya no refleja cómo es probable que funcione el modelo cuando ve datos que nunca antes había visto.
Caso 2. Simplemente tomamos un modelo previamente entrenado y lo usamos con nuestros datos y obtuvimos un 20% de error.
- Si bien podemos afirmar que el modelo se realizó con una tasa de error del 20% con nuestros datos, es correcto que aún establezcamos cuál fue la tasa de error proclamada del modelo por aquellos que la publicaron. Da una idea de cuál fue la tasa de error que observamos en relación con el rendimiento del modelo cuando se probó.