Para agregar a lo que dijo Noel, la naturaleza misma de los datos significa que incluso una solución lista para la producción sin sobreajuste no es tan útil. Los datos de Kaggle parecen ser a menudo agregados, anónimos, simplificados y, lo peor de todo, estáticos. Las empresas realmente no pueden hacer otra cosa (miedos a la privacidad, temores de los competidores, etc.) pero eso significa que los ganadores de Kaggle están creando soluciones sobre una pequeña porción del verdadero conjunto de datos. Incluso lo que se está optimizando es, al final del día, simplemente una versión simplificada de lo que realmente le importa a la empresa.
Una solución mucho más simple sobre los datos reales probablemente podría funcionar significativamente mejor para satisfacer las necesidades del negocio. Kaggle no requiere experiencia en el dominio, mientras que en realidad ese es el factor más importante en la creación de soluciones por una razón. Definir el problema real y los datos reales que se pueden obtener es tan parte de la construcción de sistemas industriales como el aprendizaje automático realizado con esos datos. Tampoco puede separarlos fácilmente, ya que conducen y dependen el uno del otro.
Hay una razón por la que muchas empresas buscan científicos de datos (que se espera que pasen de la experiencia en el dominio a los modelos de aprendizaje automático de semiproducción) en lugar de expertos en aprendizaje automático.
- Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?
- ¿Cómo almacena un sistema de aprendizaje automático su memoria aprendida?
- ¿Cómo explicaría la desigualdad de Hoeffding y, como consecuencia natural, la dimensión Vapnik Chervonenkis a un niño de diez años?
- ¿Qué es una explicación intuitiva de los coeficientes de regresión logística?
- ¿Cuáles son las principales conferencias sobre inteligencia artificial, procesamiento del lenguaje natural y aprendizaje automático?