OP aquí, los otros respondedores tienen razón en que las tablas de clasificación públicas se basan en la validación de las presentaciones contra una fracción aleatoria del conjunto de pruebas y las privadas se validan contra el resto del conjunto de pruebas. Solo iba a agregar que los privados se liberan después de que finaliza la competencia y la clasificación final se determina en función de la tabla de clasificación privada.
De la wiki de Kaggle:
Preguntas frecuentes para miembros de Kaggle
- Algoritmo simple para la detección de tendencias en datos de series temporales?
- ¿Por qué crees que la ciencia de datos será tan importante?
- ¿Puedo usar el agrupamiento (técnicas de minería de datos) para la detección de cuentas falsas en las redes sociales?
- ¿Cuáles son los recursos en línea más útiles (como capacitación, libros o certificaciones) para convertirse en un experto en arquitectura de Big Data?
- ¿Cómo se relacionan entre sí los campos de Minería de datos, Aprendizaje automático y Big Data?
¿Cómo funcionan las tablas de clasificación públicas y privadas?
- Las competencias de Kaggle se deciden por el rendimiento de su modelo en un conjunto de datos de prueba . Kaggle tiene las respuestas para este conjunto de datos, pero las retiene para compararlas con sus predicciones. Su puntaje público es lo que recibe en cada envío (ese puntaje se calcula utilizando una métrica de evaluación estadística, que siempre se describe en la página de Evaluación). PERO: Su puntaje público se determina solo a partir de una fracción del conjunto de datos de la prueba, generalmente entre 25-33%. Esta es la tabla de clasificación pública, y muestra un rendimiento relativo durante la competencia .
- Cuando finaliza la competencia, tomamos sus presentaciones seleccionadas (ver más abajo) y calificamos sus predicciones contra la FRACCIÓN RESTANTE del conjunto de pruebas, o la parte privada. Nunca recibe comentarios continuos sobre su puntaje en esta parte, por lo que es la tabla de clasificación privada . Los resultados finales de la competencia se basan en la tabla de clasificación privada, y el ganador es la persona (s) en la parte superior de la tabla de clasificación privada. ¿Por qué? Esta separación del conjunto de pruebas en porciones públicas y privadas es lo que asegura que el modelo más preciso pero generalizado sea el que gane el desafío. Si basó su modelo únicamente en los datos que le dieron retroalimentación constante, corre el peligro de un modelo que se adapta al ruido específico en esos datos. Uno de los desafíos más difíciles en la ciencia de datos es evitar el sobreajuste, dejando su modelo flexible a los datos fuera de la muestra.