¿Cuáles son los pros y los contras de usar Kaggle Scripts?

Prefacio: Odio el guión, y estoy 100% predispuesto contra ellos. De hecho, dejé Kaggle cuando estaba en el puesto 12 en el ranking mundial, principalmente debido a cómo los guiones arruinaron mi diversión Kaggle.

Pros

  • permite que se comparta más código de una manera simple para aquellos que quieren compartir y aquellos que quieren usar.
  • Algo mejora la transparencia del código compartido, reduciendo el riesgo de que las personas queden excluidas de algún fragmento importante de código enterrado en alguna publicación oscura del foro.
  • Supuestamente (según los partidarios de los guiones) ayudar a las personas a ponerse al día con Kaggle, ML y las competiciones y reducir la barrera de entrada
  • Agrega una característica al sitio web de Kaggle que Kaggle puede vender como parte de su visión de ser el hogar de la ciencia de datos, lo que aumenta su valoración.

Contras

  • Una cosa más que debe vigilar para asegurarse de que no está en desventaja frente a personas que son tan buenas como usted, pero que usan todo el código y las ideas compartidas en el foro y los scripts.
  • Podría reducir la barrera de entrada para una primera presentación, pero en mi humilde opinión no ayuda a elevar la calidad promedio de la comunidad. Solo tienes más personas en la cola débil.
  • Los desincentivos que trabajan en la competencia desde el principio porque puedes esperar y ver qué publicarán otras personas.
  • Reduce la probabilidad de enfoques innovadores porque los guiones sesgan la forma en que muchas personas ven el problema. Empiezas con un punto de referencia y lo construyes alrededor de él, en lugar de mirar el problema desde un ángulo único. No es cierto para todos, pero es probable que suceda independientemente.
  • Favorece el rendimiento de una presentación y listo, y con 10 competencias al mismo tiempo, puede argumentar que 10 resultados mediocres le dan tantos puntos como 1 buen resultado. Eso afecta las clasificaciones generales.
  • Pero la razón principal por la que los guiones me molestan es que, cuando todo está listo y hecho y la competencia ha terminado, ya no sabes realmente cuál es tu rendimiento en comparación con los demás. ¿Habrías derrotado a ese jugador si no hubieras usado el código de otra persona, y lo habrías hecho mejor que ese otro jugador si él / ella no tuviera el código de los scripts?

Kaggle creó sus scripts de plataforma de intercambio de código (más tarde renombrados a Kernels) que contienen tanto el código necesario para un análisis como el análisis en sí mismo, para hacerlo reproducible e invitar a la colaboración: Presentación de los Scripts de Kaggle

Pero, como mencionaron los respondedores anteriores, el mayor inconveniente es que fue ampliamente mal utilizado en las competencias de Kaggle: Sugerencia: No hay puntos de clasificación para los reenviadores de guiones, Kernels. Gana una competencia de Script y obtén solo un bronce, etc., etc.

Si realmente necesita algunas funciones similares de modelado ML y colaboración DS no para la calificación de Kaggle (podría realizarse fuera de Kaggle) simplemente usando Git para código y dependencias y almacenamientos en la nube para datos: Control de versión de datos: haga que sus proyectos de ciencia de datos sean reproducibles y compartibles

Extraído de una publicación de formato largo que escribí en LinkedIn “Ciencia de datos: más allá del Kaggle”, https://www.linkedin.com/pulse/d

Guiones y puntuación : los guiones de Kaggle son una forma ingeniosa para que los competidores compartan su trabajo, y para los recién llegados, especialmente para aprender sobre las técnicas de codificación que los expertos están utilizando. Desafortunadamente, los scripts pueden llevar a clasificaciones de usuarios infladas para usuarios inescrupulosos y perezosos que no quieren hacer el trabajo ellos mismos. Es demasiado fácil bifurcar un buen script que alguien ha escrito, hacer clic en un botón para ejecutar el script y enviar los resultados (¡puede hacerlo todo desde su iPhone!). Esto lleva de unos segundos a minutos como máximo, y no requiere que descargue datos, los importe en R o Python, y realmente descubra cómo funciona el algoritmo. ¡Y, sin embargo, puede obtener puntos completos para la posición de la tabla de clasificación que ocupa su script copiado! Encontré uno de esos botones de secuencia de comandos, completamente evidente a partir de algunos de sus resultados (2 o 3 presentaciones para cada una de aproximadamente media docena de competiciones, con el icono de “secuencia de comandos” al lado de sus resultados, terminando en un grupo de otros con ¡exactamente el mismo puntaje usando exactamente el mismo guión) que había obtenido suficientes puntos para estar en el 0,75% superior de las clasificaciones de usuarios de Kaggle! El titular de su perfil de LinkedIn dice “Entusiasta del aprendizaje automático”. Aparentemente no tiene el entusiasmo suficiente para hacer su propio trabajo. Entonces digo: ¡Los reclutadores deben tener cuidado con el ranking de Kaggle de una persona! Podría ser relativamente trivial hacer un puñado de botones y luego decir “¡Soy el 1% superior!”