¿Cuál es la diferencia de enfoque para resolver un desafío de Kaggle y trabajar en un problema de investigación de LA bien definido? La tecnología cambia la vida futura

El desafío de Kaggle es, ante todo, un desafío. Tiene una métrica definida que determina si ganas o no. Algunas personas lo confunden con problemas de investigación de ML aplicados , que parecen tratar de optimizar los parámetros y elegir los mejores algoritmos para una tarea en particular.

Kaggle Competition <Investigación aplicada <ML Research

Cuando compites en Kaggle, probablemente hagas algunos análisis exploratorios e ingeniería de características. Pero eso es solo una parte de un problema de investigación aplicada. Un documento técnico debe contener una conclusión que proporcione una idea sobre el enfoque de la clase de problemas similares. No como la idea de “cuando tenga dudas, importe xgboost “, sino “aquí hay una tabla enorme que compara los puntajes y sus métricas de confiabilidad como SD” y algunos razonamientos sobre los caminos de mejora para este problema. Cuando termina la competencia de Kaggle, se acaba. Los ganadores publican sus soluciones (producto de la competencia, esencialmente) y, en general, nadie se sorprende. Cuando se trata de investigación aplicada, el problema no desaparece inmediatamente después de la publicación del documento, pero ahora el mundo tiene nuevos conocimientos sobre cómo se podría resolver esto de una manera confiable y efectiva.

Sí, ese es un problema bastante grande también, porque muy a menudo las soluciones obtenidas en Kaggle, a pesar de ser extremadamente efectivas, a menudo pueden ser inestables, no escalables y en general perjudiciales para la producción.

Ahora, para la investigación pura de ML, a diferencia de Kaggle, puedes ver todo tipo de cosas allí. Desde la discusión de la mejor arquitectura para un sistema de reconocimiento de imágenes en un marco existente bien probado hasta un algoritmo absolutamente nuevo con análisis de convergencia, límites inferior y superior para la eficiencia y un montón de teoremas con pruebas, si desea un gran ejemplo, simplemente tome un vistazo a COLT: Conferencia sobre teoría del aprendizaje. 23-26 de junio de 2016 – Asociación para el Aprendizaje Computacional

TL; DR para esta comparación:

Kaggle : aquí están los parámetros óptimos para xgboost para este conjunto de datos

ML aplicado : aquí está el mejor algoritmo para esta clase de problemas y algunas ideas de por qué es así

ML normal : mira, encontramos una manera de combinar un montón de árboles de decisión en un algoritmo de conjunto fuerte

COLT : hoy vamos a demostrar que las redes neuronales pueden sustituir a las máquinas de Turing

Respondiendo a la pregunta adicional, claro, hay algunas soluciones dignas de publicación, la mayoría de las veces están relacionadas con la visión por computadora. En CV, el conocimiento sobre qué arquitecturas funcionan y cuáles no se adquiere por experiencia, y cada artículo que describe la red detrás del resultado agrega otra pieza de un rompecabezas. Tal vez no sea un descubrimiento innovador, pero ciertamente amplía nuestro conocimiento. El criterio para agregar conclusiones basadas en el experimento aún permanece.