¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?

Para agregar a lo que dijo Noel, la naturaleza misma de los datos significa que incluso una solución lista para la producción sin sobreajuste no es tan útil. Los datos de Kaggle parecen ser a menudo agregados, anónimos, simplificados y, lo peor de todo, estáticos. Las empresas realmente no pueden hacer otra cosa (miedos a la privacidad, temores de los competidores, etc.) pero eso significa que los ganadores de Kaggle están creando soluciones sobre una pequeña porción del verdadero conjunto de datos. Incluso lo que se está optimizando es, al final del día, simplemente una versión simplificada de lo que realmente le importa a la empresa.

Una solución mucho más simple sobre los datos reales probablemente podría funcionar significativamente mejor para satisfacer las necesidades del negocio. Kaggle no requiere experiencia en el dominio, mientras que en realidad ese es el factor más importante en la creación de soluciones por una razón. Definir el problema real y los datos reales que se pueden obtener es tan parte de la construcción de sistemas industriales como el aprendizaje automático realizado con esos datos. Tampoco puede separarlos fácilmente, ya que conducen y dependen el uno del otro.

Hay una razón por la que muchas empresas buscan científicos de datos (que se espera que pasen de la experiencia en el dominio a los modelos de aprendizaje automático de semiproducción) en lugar de expertos en aprendizaje automático.

Voy a adivinar, que es que la mayoría de las empresas no ven mucho valor de los resultados. Cuando miré a los ganadores de las competiciones de Kaggle, parece que 1) es difícil entrar en producción y 2) sobreajustar los datos en cierta medida.

Netflix ha comentado sobre los resultados del premio de Netflix, que creo que inspiró a Kaggle, que había técnicas útiles desarrolladas como parte del premio, pero la solución ganadora tenía tantas partes móviles que no era viable reproducirlas y desplegarlas en un entorno de producción. . Creo que esto es cierto para muchas entradas de Kaggle. Tenían muchos subsistemas a menudo unidos de una manera muy endeble, y pueden tardar demasiado en ejecutarse para ser útiles en un sistema real.

El otro punto es que veo que muchas personas explotan características del conjunto de datos que probablemente no se generalizan más allá de ese conjunto de datos específico. Puede hacer esto con Kaggle porque tiene un conjunto de datos fijo y solo necesita desempeñarse lo mejor posible en ese conjunto. Eso no necesariamente conduce a una solución que sea útil más allá de ese conjunto de datos.

Teniendo en cuenta estos puntos, imagino que muchas empresas ven un valor dudoso en la realización de una competencia de Kaggle.

Equipo de Kaggle aquí. Las competiciones no están exentas de inconvenientes y se ajustan mejor a algunos problemas que a otros, pero la razón de la pausa tiene más que ver con los cambios de personal a corto plazo que con alguna deficiencia sistemática del producto. El lado energético de Kaggle va bien y se expande rápidamente, lo que roba algo de atención / atención del sitio web. Estoy contratando tanto en el lado de la ciencia de los datos como en el lado del cliente para que el número de competiciones comerciales vuelva más allá de la paridad histórica – Carreras | Kaggle