¿Cuáles son los valores reales de Kaggle?

Mientras la segunda competencia más popular (durante la historia de Kaggle) Rossmann se dirige hacia el final en 2 días, un nuevo escándalo de “cuentas múltiples” está creciendo:

https://www.kaggle.com/c/rossman…

Pero, ¿cuáles son los motivos de tales problemas? Desde el punto de vista de la ciencia de la minería de datos, no hay evidencia de que múltiples cuentas conduzcan a alguna ventaja en los términos de los resultados finales. Más bien provocará un sobreajuste como consecuencia de un trabajo más duro. Entonces, puedo ver la única explicación: los administradores de Kaggle quieren tener algún mecanismo para manipular los resultados finales o eliminar las cuentas de esos participantes, que están mostrando algunas críticas razonables. Como sabemos muy bien, hay una lista muy larga de competencias muy discutibles (bastante controvertidas) durante los últimos 5 años en la plataforma Kaggle … Además, hay hechos que Kaggle cerró cuentas solo por escribir en los foros (sin una sola presentación )

Entonces, ¿qué es peor “hacer trampa” en el sentido de Kaggle, o acusar erróneamente a cualquier participante en hacer trampa?

En cualquier caso, ¿hay algún mecanismo convincente para demostrar que algún participante no está usando algunas cuentas múltiples?

More Interesting

¿Tengo la oportunidad de trabajar en San Francisco como científico de datos?

¿Qué tipo de habilidades necesita desarrollar un programador científico durante la transición a un desarrollador de software industrial?

¿Cuál es el alcance de la actualización de Big Data en India?

¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?

¿Cuál es la importancia y el uso de las series temporales?

¿Todos los trabajos de analista de datos / ciencia de datos exigen altas horas de trabajo?

¿Qué papel debería elegir / jugar, si quiero trabajar en Big Data Analytics / Machine Learning?

¿Qué certificación de big data es mejor Hortonworks o Cloudera?

¿Es SPSS una herramienta de minería de datos más apropiada que Weka?

Econometría: ¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos económicos?

Cómo elegir un modelo ML cuando el objetivo es tanto una predicción razonable como una inferencia

¿Cuál es una lectura más útil para alguien interesado en la investigación de LA: "Teoría del aprendizaje estadístico" de Vapnik, o "Elementos del aprendizaje estadístico" de Friedman / Tibshirani / Hastie?

¿Cuál es la diferencia entre minería de datos, ciencia de datos y bigdata?

Recuperación de información: ¿Cuáles son algunas de las API más importantes que todo científico de datos debe conocer?

Estoy interesado en la ciencia de datos. Pero no tengo conocimiento sobre Linux, SQL o ningún lenguaje de programación. ¿Puedo seguir persiguiendo esto?