¿Cómo califica Kaggle los envíos?

Los criterios de evaluación varían de competencia a competencia. Tenga en cuenta que los concursos de Kaggle tienen datos muy estructurados, con los “objetivos” (respuestas correctas) conocidos por los organizadores. Por lo tanto, tienen la capacidad de comparar hasta qué punto cualquier presentación es los objetivos conocidos.

La métrica depende del tipo de problema de aprendizaje automático que se resuelve, y esencialmente analiza el error entre el vector de predicciones y el vector real .

Algunos de los más comunes son:
Error cuadrático medio (porcentaje)
Error medio absoluto (porcentaje)
Desviación binomial limitada
La métrica de las AUC
Métricas de Gini normalizadas

Los criterios de evaluación se especifican muy claramente en cada competencia, en la pestaña “Evaluación”.

Un último punto: durante el transcurso de una competencia de Kaggle, los organizadores generalmente puntuarán cada presentación solo contra una fracción más pequeña del conjunto total de ‘prueba’ para mostrar los puntajes y crear las clasificaciones de la tabla de clasificación. Sin embargo, una vez que se cierre el concurso, compararán la presentación final con el conjunto de prueba * completo *.

En términos generales, carga los valores pronosticados para los datos en test.csv en un archivo csv en un formato específico, que es ligeramente diferente en cada competencia, pero generalmente una tabla de dos columnas con identificadores de elementos y resultados correspondientes.

El resultado es que se puntuaron de manera específica para una competencia determinada. A veces RMSE, a veces tasa de error de clasificación. Dependiendo de la naturaleza del problema.

Para un ejemplo introductorio específico, mira mi publicación de blog sobre la competencia de tutoriales del Titanic aquí Loren sobre el Arte de MATLAB

Kaggle usa diferentes métodos para evaluar diferentes competencias. Si visita una página de competencia, encontrará un tablero en el lado izquierdo como se muestra a continuación:

Si hace clic en la opción de evaluación, se lo dirigirá a la página donde Kaggle mencionaría cómo se evaluará un envío en particular para la competencia. Puede haber muchas técnicas de error cuadrático medio (RMSE), precisión de categorización (que significa la fracción de preguntas de opción múltiple respondidas correctamente. Las suposiciones aleatorias deberían producir una puntuación de evaluación de alrededor de 0.25), etc., dependiendo de la naturaleza del problema.

También puede consultar los enlaces a continuación para comenzar y echar un vistazo a las presentaciones ganadoras:

Comience a resolver el problema de Kaggle con R: Tutorial de una hora

Aprendizaje de análisis predictivo: soluciones de competencia de Kaggle

More Interesting

¿Puede el aprendizaje profundo manejar datos desequilibrados?

¿Cuáles son los mejores clasificadores de código abierto para detectar spam, basura y blasfemias en el contenido generado por el usuario, como los tweets?

Construcción del modelo de correlación / regresión: ¿Cuándo debo usar variables dependientes / independientes reales, y cuándo debo usar sus tasas de crecimiento?

He completado la clase Coursera de Andrew Ng sobre aprendizaje automático. ¿Qué debería hacer después? ¿Qué puedo hacer a continuación?

¿Cuándo se deben usar modelos generativos y no modelos discriminativos?

¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

¿Es cierto que incluso si podemos modelar a partir de la distribución del modelo [matemática] p (x) [/ matemática], el muestreo de importancia óptima no es [matemática] p (x) [/ matemática]?

¿Es posible entrenar a un RNN en una sola secuencia extremadamente larga?

Entre JavaScript y la ciencia de datos, ¿qué debo hacer? Tengo que aprender a los dos desde cero.

¿Cómo se puede aplicar el aprendizaje automático al póker?

¿Cuándo es importante utilizar convoluciones cruzadas de canales y cuándo no?

¿Cuál es tu algoritmo de aprendizaje automático favorito?

¿Cuál es la desventaja de usar ADVI?

¿Cuáles son algunos conjuntos de datos sin resolver que son los objetivos de la investigación actual de Deep Learning?

¿Existe algún proyecto de código abierto que implemente algoritmos de aprendizaje profundo que aproveche la enorme potencia informática paralela de la GPU?