¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?

Para agregar a lo que dijo Noel, la naturaleza misma de los datos significa que incluso una solución lista para la producción sin sobreajuste no es tan útil. Los datos de Kaggle parecen ser a menudo agregados, anónimos, simplificados y, lo peor de todo, estáticos. Las empresas realmente no pueden hacer otra cosa (miedos a la privacidad, temores de los competidores, etc.) pero eso significa que los ganadores de Kaggle están creando soluciones sobre una pequeña porción del verdadero conjunto de datos. Incluso lo que se está optimizando es, al final del día, simplemente una versión simplificada de lo que realmente le importa a la empresa.

Una solución mucho más simple sobre los datos reales probablemente podría funcionar significativamente mejor para satisfacer las necesidades del negocio. Kaggle no requiere experiencia en el dominio, mientras que en realidad ese es el factor más importante en la creación de soluciones por una razón. Definir el problema real y los datos reales que se pueden obtener es tan parte de la construcción de sistemas industriales como el aprendizaje automático realizado con esos datos. Tampoco puede separarlos fácilmente, ya que conducen y dependen el uno del otro.

Hay una razón por la que muchas empresas buscan científicos de datos (que se espera que pasen de la experiencia en el dominio a los modelos de aprendizaje automático de semiproducción) en lugar de expertos en aprendizaje automático.

Ciencia de datosMachine Learning

¿En qué se diferencia exactamente la generación del lenguaje natural de la comprensión del lenguaje natural?

¿Cuáles son las mejores plataformas de ciencia de datos?

¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?

¿Cómo se debe introducir el gobierno de máquinas?

Cómo garantizar que la función SIFT sea invariante en perspectiva

¿Cómo es tomar CS 228: modelo gráfico probabilístico en Stanford?

Voy a adivinar, que es que la mayoría de las empresas no ven mucho valor de los resultados. Cuando miré a los ganadores de las competiciones de Kaggle, parece que 1) es difícil entrar en producción y 2) sobreajustar los datos en cierta medida.

Netflix ha comentado sobre los resultados del premio de Netflix, que creo que inspiró a Kaggle, que había técnicas útiles desarrolladas como parte del premio, pero la solución ganadora tenía tantas partes móviles que no era viable reproducirlas y desplegarlas en un entorno de producción. . Creo que esto es cierto para muchas entradas de Kaggle. Tenían muchos subsistemas a menudo unidos de una manera muy endeble, y pueden tardar demasiado en ejecutarse para ser útiles en un sistema real.

El otro punto es que veo que muchas personas explotan características del conjunto de datos que probablemente no se generalizan más allá de ese conjunto de datos específico. Puede hacer esto con Kaggle porque tiene un conjunto de datos fijo y solo necesita desempeñarse lo mejor posible en ese conjunto. Eso no necesariamente conduce a una solución que sea útil más allá de ese conjunto de datos.

Teniendo en cuenta estos puntos, imagino que muchas empresas ven un valor dudoso en la realización de una competencia de Kaggle.

Marcin Mejran

Equipo de Kaggle aquí. Las competiciones no están exentas de inconvenientes y se ajustan mejor a algunos problemas que a otros, pero la razón de la pausa tiene más que ver con los cambios de personal a corto plazo que con alguna deficiencia sistemática del producto. El lado energético de Kaggle va bien y se expande rápidamente, lo que roba algo de atención / atención del sitio web. Estoy contratando tanto en el lado de la ciencia de los datos como en el lado del cliente para que el número de competiciones comerciales vuelva más allá de la paridad histórica – Carreras | Kaggle

Noel Welsh

More Interesting

¿Alguien ha usado ML para hacer un diseño * no trivial * de algoritmos CS de bajo nivel (ver comentarios)?

¿El descenso de gradiente de lote completo, con potencia de computadora ilimitada, es siempre mejor que el descenso de gradiente de mini lote?

¿Qué son las redes amplias?

¿Necesito una GPU para aprender el aprendizaje profundo?

¿Es posible aplicar la localización de objetos sin tener regiones de caja en la verdad básica?

¿Qué habilidades de programación / habilidades informáticas debo aprender si quiero especializarme en visión por computadora y aprendizaje automático?

Cómo encontrar un patrón repetido en una imagen

¿Qué son los asombrosos papeles gráficos de conocimiento?

¿Cómo se relaciona la RNN con el aprendizaje profundo?

¿Cuáles son los principales problemas con el uso de la codificación one-hot?