¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?

Para agregar a lo que dijo Noel, la naturaleza misma de los datos significa que incluso una solución lista para la producción sin sobreajuste no es tan útil. Los datos de Kaggle parecen ser a menudo agregados, anónimos, simplificados y, lo peor de todo, estáticos. Las empresas realmente no pueden hacer otra cosa (miedos a la privacidad, temores de los competidores, etc.) pero eso significa que los ganadores de Kaggle están creando soluciones sobre una pequeña porción del verdadero conjunto de datos. Incluso lo que se está optimizando es, al final del día, simplemente una versión simplificada de lo que realmente le importa a la empresa.

Una solución mucho más simple sobre los datos reales probablemente podría funcionar significativamente mejor para satisfacer las necesidades del negocio. Kaggle no requiere experiencia en el dominio, mientras que en realidad ese es el factor más importante en la creación de soluciones por una razón. Definir el problema real y los datos reales que se pueden obtener es tan parte de la construcción de sistemas industriales como el aprendizaje automático realizado con esos datos. Tampoco puede separarlos fácilmente, ya que conducen y dependen el uno del otro.

Hay una razón por la que muchas empresas buscan científicos de datos (que se espera que pasen de la experiencia en el dominio a los modelos de aprendizaje automático de semiproducción) en lugar de expertos en aprendizaje automático.

Voy a adivinar, que es que la mayoría de las empresas no ven mucho valor de los resultados. Cuando miré a los ganadores de las competiciones de Kaggle, parece que 1) es difícil entrar en producción y 2) sobreajustar los datos en cierta medida.

Netflix ha comentado sobre los resultados del premio de Netflix, que creo que inspiró a Kaggle, que había técnicas útiles desarrolladas como parte del premio, pero la solución ganadora tenía tantas partes móviles que no era viable reproducirlas y desplegarlas en un entorno de producción. . Creo que esto es cierto para muchas entradas de Kaggle. Tenían muchos subsistemas a menudo unidos de una manera muy endeble, y pueden tardar demasiado en ejecutarse para ser útiles en un sistema real.

El otro punto es que veo que muchas personas explotan características del conjunto de datos que probablemente no se generalizan más allá de ese conjunto de datos específico. Puede hacer esto con Kaggle porque tiene un conjunto de datos fijo y solo necesita desempeñarse lo mejor posible en ese conjunto. Eso no necesariamente conduce a una solución que sea útil más allá de ese conjunto de datos.

Teniendo en cuenta estos puntos, imagino que muchas empresas ven un valor dudoso en la realización de una competencia de Kaggle.

Equipo de Kaggle aquí. Las competiciones no están exentas de inconvenientes y se ajustan mejor a algunos problemas que a otros, pero la razón de la pausa tiene más que ver con los cambios de personal a corto plazo que con alguna deficiencia sistemática del producto. El lado energético de Kaggle va bien y se expande rápidamente, lo que roba algo de atención / atención del sitio web. Estoy contratando tanto en el lado de la ciencia de los datos como en el lado del cliente para que el número de competiciones comerciales vuelva más allá de la paridad histórica – Carreras | Kaggle

More Interesting

Cómo evaluar mi modelo cada época en TensorFlow

¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?

¿Cuál es el contenedor y el método incrustado? ¿Cómo se realiza la selección de funciones usándola?

¿Cuál es la diferencia entre un conjunto de datos y una característica?

¿Qué algoritmos de aprendizaje automático se pueden usar para crear una calculadora matemática de lenguaje natural en Python?

¿Puede Quora generar un patrón para el futuro de las personas con sus respuestas y preguntas?

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

¿Puede un contador estar completamente automatizado para 2030? Si es así, ¿cuál es la mejor manera de salvar mi trabajo?

¿Cómo puedo evitar el sobreajuste?

¿Puedo entrenar una red neuronal convolucional (CNN) con imágenes de fondo diferente en blanco y negro?

¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.

Necesito analizar resúmenes de texto en lenguaje humano e identificar los temas mencionados en ellos. ¿Esto cae bajo el reconocimiento de la entidad nombrada?

¿Cómo se compara la industria del aprendizaje automático con las opciones de carrera dentro del desarrollo web?

¿Es importante aprender Python para el aprendizaje automático? He aprendido R. ¿Cómo puedo aprender el aprendizaje automático en R?

Cómo agregar una razón de probabilidad para una característica en mi conjunto de datos