Debería obtener mucha RAM porque una práctica común es almacenar una representación procesada de su conjunto de datos y cargarla con lotes directamente desde la memoria, lo que aumenta significativamente el rendimiento del modelo. Por supuesto, siempre puede almacenar los datos procesados en SSD, que también está bien, pero no es tan bueno.
Un ejemplo más concreto, el conjunto de datos COCO es de aproximadamente 300k imágenes. Una práctica común es incrustar cada palabra en la dimensión característica, generalmente tomando la última capa antes de la capa completamente conectada de un modelo de clasificación previamente entrenado. En el caso de Res-net, la salida de incrustación es de 14x14x2048 tensor para cada imagen. Ahora, si toma 300k imágenes y genera un tensor de 14x14x2048, se necesitarán aproximadamente 256GB de memoria para cargarlo en la memoria o reducir la pérdida de caché usando lotes en caso de que almacene los datos en SSD.
Otro uso de la memoria es el entrenamiento de modelos de incrustación para grandes corpus. Por ejemplo, doc2vec (vectores de párrafo) guarda un vector para cada oración en su corpus, por lo que la representación se vuelve bastante grande muy rápidamente. Por lo tanto, la memoria también será importante para esa necesidad.
- ¿Hay algún ejemplo en la inferencia bayesiana de que, incluso con infinitos puntos de datos, el efecto de lo anterior no puede ser "eliminado"?
- ¿Qué es mejor para la clasificación binaria, softmax bidireccional o regresión logística?
- ¿Los diferentes algoritmos de árbol de decisión ofrecen diferencias significativas en el rendimiento?
- ¿Es posible entrenar modelos de aprendizaje automático de procesamiento de datos en dispositivos locales y enviar solo el modelo entrenado al servidor?
- ¿Debo usar un cursor o usar el paquete R directamente?