El desafío de Kaggle es, ante todo, un desafío. Tiene una métrica definida que determina si ganas o no. Algunas personas lo confunden con problemas de investigación de ML aplicados , que parecen tratar de optimizar los parámetros y elegir los mejores algoritmos para una tarea en particular.
Kaggle Competition <Investigación aplicada <ML Research
Cuando compites en Kaggle, probablemente hagas algunos análisis exploratorios e ingeniería de características. Pero eso es solo una parte de un problema de investigación aplicada. Un documento técnico debe contener una conclusión que proporcione una idea sobre el enfoque de la clase de problemas similares. No como la idea de “cuando tenga dudas, importe xgboost “, sino “aquí hay una tabla enorme que compara los puntajes y sus métricas de confiabilidad como SD” y algunos razonamientos sobre los caminos de mejora para este problema. Cuando termina la competencia de Kaggle, se acaba. Los ganadores publican sus soluciones (producto de la competencia, esencialmente) y, en general, nadie se sorprende. Cuando se trata de investigación aplicada, el problema no desaparece inmediatamente después de la publicación del documento, pero ahora el mundo tiene nuevos conocimientos sobre cómo se podría resolver esto de una manera confiable y efectiva.
- ¿Cuáles son algunos de los conjuntos de habilidades esenciales que debe tener un desarrollador de aprendizaje automático?
- ¿Cuáles son actualmente los temas candentes en la investigación de aprendizaje automático y en aplicaciones reales?
- ¿Se está realizando una fuerte investigación en la intersección del aprendizaje automático y la neurociencia computacional?
- Visión por computadora: ¿Cuáles son algunos problemas de investigación abierta en la recuperación de imágenes basada en contenido?
- ¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?
Sí, ese es un problema bastante grande también, porque muy a menudo las soluciones obtenidas en Kaggle, a pesar de ser extremadamente efectivas, a menudo pueden ser inestables, no escalables y en general perjudiciales para la producción.
Ahora, para la investigación pura de ML, a diferencia de Kaggle, puedes ver todo tipo de cosas allí. Desde la discusión de la mejor arquitectura para un sistema de reconocimiento de imágenes en un marco existente bien probado hasta un algoritmo absolutamente nuevo con análisis de convergencia, límites inferior y superior para la eficiencia y un montón de teoremas con pruebas, si desea un gran ejemplo, simplemente tome un vistazo a COLT: Conferencia sobre teoría del aprendizaje. 23-26 de junio de 2016 – Asociación para el Aprendizaje Computacional
TL; DR para esta comparación:
Kaggle : aquí están los parámetros óptimos para xgboost para este conjunto de datos
ML aplicado : aquí está el mejor algoritmo para esta clase de problemas y algunas ideas de por qué es así
ML normal : mira, encontramos una manera de combinar un montón de árboles de decisión en un algoritmo de conjunto fuerte
COLT : hoy vamos a demostrar que las redes neuronales pueden sustituir a las máquinas de Turing
Respondiendo a la pregunta adicional, claro, hay algunas soluciones dignas de publicación, la mayoría de las veces están relacionadas con la visión por computadora. En CV, el conocimiento sobre qué arquitecturas funcionan y cuáles no se adquiere por experiencia, y cada artículo que describe la red detrás del resultado agrega otra pieza de un rompecabezas. Tal vez no sea un descubrimiento innovador, pero ciertamente amplía nuestro conocimiento. El criterio para agregar conclusiones basadas en el experimento aún permanece.