¿Cuál es la diferencia entre la tabla de clasificación pública y privada en Kaggle?

OP aquí, los otros respondedores tienen razón en que las tablas de clasificación públicas se basan en la validación de las presentaciones contra una fracción aleatoria del conjunto de pruebas y las privadas se validan contra el resto del conjunto de pruebas. Solo iba a agregar que los privados se liberan después de que finaliza la competencia y la clasificación final se determina en función de la tabla de clasificación privada.

De la wiki de Kaggle:

Preguntas frecuentes para miembros de Kaggle

¿Cómo funcionan las tablas de clasificación públicas y privadas?

  1. Las competencias de Kaggle se deciden por el rendimiento de su modelo en un conjunto de datos de prueba . Kaggle tiene las respuestas para este conjunto de datos, pero las retiene para compararlas con sus predicciones. Su puntaje público es lo que recibe en cada envío (ese puntaje se calcula utilizando una métrica de evaluación estadística, que siempre se describe en la página de Evaluación). PERO: Su puntaje público se determina solo a partir de una fracción del conjunto de datos de la prueba, generalmente entre 25-33%. Esta es la tabla de clasificación pública, y muestra un rendimiento relativo durante la competencia .
  2. Cuando finaliza la competencia, tomamos sus presentaciones seleccionadas (ver más abajo) y calificamos sus predicciones contra la FRACCIÓN RESTANTE del conjunto de pruebas, o la parte privada. Nunca recibe comentarios continuos sobre su puntaje en esta parte, por lo que es la tabla de clasificación privada . Los resultados finales de la competencia se basan en la tabla de clasificación privada, y el ganador es la persona (s) en la parte superior de la tabla de clasificación privada. ¿Por qué? Esta separación del conjunto de pruebas en porciones públicas y privadas es lo que asegura que el modelo más preciso pero generalizado sea ​​el que gane el desafío. Si basó su modelo únicamente en los datos que le dieron retroalimentación constante, corre el peligro de un modelo que se adapta al ruido específico en esos datos. Uno de los desafíos más difíciles en la ciencia de datos es evitar el sobreajuste, dejando su modelo flexible a los datos fuera de la muestra.

En realidad, el LB público se calcula en una parte del conjunto de prueba, el privado se calcula en el resto del conjunto de prueba (no en todo el conjunto de prueba).
“Ajustar el LB” es un término de Kaggle que se usa para describir cuándo está ajustando sus modelos para que funcionen bien en el LB público. Al hacerlo, hay un arte y una ciencia y la experiencia de Kagglers es capaz de aprovecharla al máximo sin sobreajustar. Si no se hace bien, eso generalmente se presta a peores puntajes en el LB privado, a veces desastres. En general, la clave es construir un modelo que generalice bien. La validación cruzada local es esencial para eso. Pero el público LB también proporciona alguna señal. Kaggle Masters puede usar validación cruzada y LB público para optimizar los puntajes de LB privados.

La tabla de clasificación pública se calcula en función de una fracción del conjunto de prueba. La tabla de clasificación privada se calcula en todo el conjunto de pruebas.

Si sobreajusta el conjunto de prueba, puede hacerlo muy bien en la tabla de clasificación pública y muy mal en la tabla privada.

More Interesting

¿Cómo aprendo minería de datos en un mes?

¿Cómo se sienten los estudiantes de doctorado en aprendizaje automático después del reciente aumento del aprendizaje profundo? ¿Creen que gran parte de su arduo trabajo se desperdiciará?

¿Qué posibilidades futuras ve en la intersección de la ciencia de datos y las finanzas?

Cómo identificar problemas en un producto mediante el análisis de los datos de la comunidad de usuarios donde el usuario hace preguntas y discute problemas relacionados con el producto

¿Cómo funciona la tecnología detrás de las tarjetas magnéticas en términos de datos? ¿Cómo se manejan los datos del usuario y los datos de RFID / Bar de la compra desde el deslizamiento del terminal a los sistemas de back-end?

¿Necesito saber cómo construir algoritmos de aprendizaje automático o simplemente puedo usar algoritmos que se envían con bibliotecas python o R?

¿Cuál es el mejor curso fuera de línea para big data y data science en Navi Mumbai?

¿Es legal enviar datos de Kaggle a GitHub?

Quiere aprender Big data. ¿Cómo debo aprender desde una perspectiva de prueba, por favor responda?

Como experto en aprendizaje automático, ¿con qué aspectos de las bases de datos y la optimización de bases de datos debería estar familiarizado?

¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son "grandes"?

¿Cuáles son las fortalezas / debilidades de los diferentes algoritmos de aprendizaje automático?

Buscando una visión general de las ideas de big data que podrían derivarse al analizar la cadena de bloques de Bitcoin. ¿Qué es posible los niveles masivos dados de adopción comercial? ¿La percepción de la cadena de bloques como un indicador económico?

En la compresión de datos, ¿cómo ayuda la mejora de la SNR a aumentar la tasa?

¿Dónde puedo encontrar conjuntos de datos de rango?