Mientras la segunda competencia más popular (durante la historia de Kaggle) Rossmann se dirige hacia el final en 2 días, un nuevo escándalo de “cuentas múltiples” está creciendo:
https://www.kaggle.com/c/rossman…
Pero, ¿cuáles son los motivos de tales problemas? Desde el punto de vista de la ciencia de la minería de datos, no hay evidencia de que múltiples cuentas conduzcan a alguna ventaja en los términos de los resultados finales. Más bien provocará un sobreajuste como consecuencia de un trabajo más duro. Entonces, puedo ver la única explicación: los administradores de Kaggle quieren tener algún mecanismo para manipular los resultados finales o eliminar las cuentas de esos participantes, que están mostrando algunas críticas razonables. Como sabemos muy bien, hay una lista muy larga de competencias muy discutibles (bastante controvertidas) durante los últimos 5 años en la plataforma Kaggle … Además, hay hechos que Kaggle cerró cuentas solo por escribir en los foros (sin una sola presentación )
- Mientras se realiza PCA en 96 variables, la contribución de varianza expandida de cada componente es muy inferior a 1-1.5%. ¿Qué dice sobre los datos?
- ¿Por qué son útiles los modelos generativos profundos?
- Cómo conseguir un trabajo en el campo del aprendizaje automático o la ciencia de datos en India si soy muy bueno en 3 lenguajes de programación y algoritmos
- Si mi interés principal son las series temporales, ¿debería enfocar mi energía en aprender Python o R?
- ¿Cuánto conocimiento estadístico es necesario para convertirse en un buen científico de datos? ¿Alguna guía / fuente / libro práctico para aprender estadísticas que sea suficiente para fines de ciencia de datos?
Entonces, ¿qué es peor “hacer trampa” en el sentido de Kaggle, o acusar erróneamente a cualquier participante en hacer trampa?
En cualquier caso, ¿hay algún mecanismo convincente para demostrar que algún participante no está usando algunas cuentas múltiples?