En este tipo de situación (donde él respondió antes que yo), por lo general estoy de acuerdo y aprovecho la respuesta de Ricardo Vladimiro. En este caso, sin embargo, voy a ofrecer una perspectiva diferente a la suya.
Nunca, nunca, tomé en serio Kaggle y competencias similares. Los usé como una forma de seguir practicando habilidades que de otro modo podrían haberse atrofiado, y permanecer cuerdo (larga historia). Sin embargo, mis experiencias más recientes con los datos de Kaggle tienen menos de un año, y todavía ocasionalmente miro los problemas que surgen en Kaggle de vez en cuando.
Con 0.5 GB de datos de entrenamiento y 8 GB de RAM, lo está presionando, especialmente si realiza muchas funciones de ingeniería, usa conjuntos y usa principalmente R (los dos primeros son casi siempre el caso en Kaggle, y el tercero es bastante común). En comparación con una persona idéntica que tenía 16 o 32 GB (es menos probable que este último sea necesario, pero posible) de RAM, sería menos efectivo.
- ¿Cuál es la ventaja de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN)?
- ¿Por qué no es una práctica estándar publicar pesos de modelos entrenados junto con el código fuente para trabajos de investigación de aprendizaje profundo?
- ¿Qué significa para una red neuronal ser entrenada de extremo a extremo?
- ¿Cuál es la diferencia entre tensorflow y CVX?
- ¿El submuestreo de un entrenamiento desequilibrado es una buena idea cuando los datos del mundo real, usaré mi clasificador, también estarán desequilibrados?
¿Por qué es esto? Ricardo responde desde una perspectiva comercial. Y, desde esa perspectiva, a menos que uno esté investigando problemas, su respuesta es 100% correcta. Incluso un investigador de negocios minimizará muy naturalmente el costo en relación con el beneficio. De hecho, me imagino que un científico de datos con solo la experiencia de Kaggle (y entendiendo que dicha experiencia trae) siendo llevado por una empresa tendría mucho que aprender.
Los datos de Kaggle pueden ser más limpios que los datos de negocios, los problemas son más variados y mucho más interesantes para el extraño, pero la filosofía de Kaggle de las tablas de clasificación es probablemente el anatema de cualquier dueño de negocio que trae a alguien con solo la experiencia de Kaggle. Un Kaggler pasará horas, días en una mejora minúscula que lo elevaría en la clasificación. Alguien en un entorno comercial real se habría dado cuenta de que el valor real de dicho incremento no vale el tiempo dedicado y pasará al siguiente problema o preparación para la producción.
Esta es la razón por la cual Kaggle et al, en mi opinión, son más de la mentalidad académica que empresarial. No es que los problemas sean desde una perspectiva académica … la mayoría de los patrocinadores son empresas, después de todo. Pero el esfuerzo durante tanto tiempo para lograr un pequeño aumento me recuerda más mi mentalidad cuando estaba en mi doctorado que cuando me uní a la fuerza laboral después. Era algo que tenía que aprender a no hacer, al menos la mayor parte del tiempo. Y las empresas que financian concursos probablemente estén usando eso. Necesitan una solución que realmente resuelva bien el problema, pero no quieren pagar para contratar a nadie para resolverlo extraordinariamente bien. Y están buscando ideas que muchas personas que vean el problema traerán.
Hay ejemplos en el negocio de compañías que buscan la mejor manera absoluta, pero estas son compañías con un interés personal en la investigación … los Alfabetos / Google y Facebook del mundo.