¿Puedo hacer una competencia de kaggle con un archivo csv de entrenamiento de 0.5 Gb en mi computadora de 8 Gb y tener éxito?

En este tipo de situación (donde él respondió antes que yo), por lo general estoy de acuerdo y aprovecho la respuesta de Ricardo Vladimiro. En este caso, sin embargo, voy a ofrecer una perspectiva diferente a la suya.

Nunca, nunca, tomé en serio Kaggle y competencias similares. Los usé como una forma de seguir practicando habilidades que de otro modo podrían haberse atrofiado, y permanecer cuerdo (larga historia). Sin embargo, mis experiencias más recientes con los datos de Kaggle tienen menos de un año, y todavía ocasionalmente miro los problemas que surgen en Kaggle de vez en cuando.

Con 0.5 GB de datos de entrenamiento y 8 GB de RAM, lo está presionando, especialmente si realiza muchas funciones de ingeniería, usa conjuntos y usa principalmente R (los dos primeros son casi siempre el caso en Kaggle, y el tercero es bastante común). En comparación con una persona idéntica que tenía 16 o 32 GB (es menos probable que este último sea necesario, pero posible) de RAM, sería menos efectivo.

¿Por qué es esto? Ricardo responde desde una perspectiva comercial. Y, desde esa perspectiva, a menos que uno esté investigando problemas, su respuesta es 100% correcta. Incluso un investigador de negocios minimizará muy naturalmente el costo en relación con el beneficio. De hecho, me imagino que un científico de datos con solo la experiencia de Kaggle (y entendiendo que dicha experiencia trae) siendo llevado por una empresa tendría mucho que aprender.

Los datos de Kaggle pueden ser más limpios que los datos de negocios, los problemas son más variados y mucho más interesantes para el extraño, pero la filosofía de Kaggle de las tablas de clasificación es probablemente el anatema de cualquier dueño de negocio que trae a alguien con solo la experiencia de Kaggle. Un Kaggler pasará horas, días en una mejora minúscula que lo elevaría en la clasificación. Alguien en un entorno comercial real se habría dado cuenta de que el valor real de dicho incremento no vale el tiempo dedicado y pasará al siguiente problema o preparación para la producción.

Esta es la razón por la cual Kaggle et al, en mi opinión, son más de la mentalidad académica que empresarial. No es que los problemas sean desde una perspectiva académica … la mayoría de los patrocinadores son empresas, después de todo. Pero el esfuerzo durante tanto tiempo para lograr un pequeño aumento me recuerda más mi mentalidad cuando estaba en mi doctorado que cuando me uní a la fuerza laboral después. Era algo que tenía que aprender a no hacer, al menos la mayor parte del tiempo. Y las empresas que financian concursos probablemente estén usando eso. Necesitan una solución que realmente resuelva bien el problema, pero no quieren pagar para contratar a nadie para resolverlo extraordinariamente bien. Y están buscando ideas que muchas personas que vean el problema traerán.

Hay ejemplos en el negocio de compañías que buscan la mejor manera absoluta, pero estas son compañías con un interés personal en la investigación … los Alfabetos / Google y Facebook del mundo.

Descargo de responsabilidad: no lo hago Kaggle.

El tamaño del conjunto de datos de entrenamiento en el disco es irrelevante. Algunos algoritmos usan representaciones dispersas de datos que los hacen muy amigables con los recursos. Otros, naturalmente, no lo hacen. Algunas estructuras de datos tienen diferentes tamaños en RAM para dos csvs de tamaños idénticos en el disco. Por ejemplo, 1GB csv hecho de enteros tomará menos RAM que un 1GB csv hecho de cadenas. Sin embargo, si construyo n-gramos a partir del conjunto de datos de cadenas, tomará mucha más memoria que si lo paso a un algoritmo de reglas de asociación.

En pocas palabras, el tamaño de los datos en el disco no representa el tamaño de los datos en la RAM.

Obviamente, las personas con mejores recursos tendrán una ventaja, ya que tendrán menos limitaciones de las que preocuparse. Por ejemplo, tengo una ventaja considerable si tengo acceso a una cuenta de AWS donde puedo girar servidores enormes en comparación con alguien con una computadora portátil con 32 GB.

Sin embargo, nunca estuve particularmente limitado con una computadora portátil con 8 GB de RAM para conjuntos de datos de hasta 512 MB. La naturaleza de los datos con los que trabajo son básicamente fechas, reales y factores e incluso con millones de filas rara vez estaba cerca de 8 GB de RAM. Si la cantidad de RAM no se acerca a la memoria física máxima disponible y todas las demás especificaciones son idénticas, la única ventaja es la habilidad y el conocimiento.