Depende de qué tan grande. Todavía no he tenido que trabajar con un conjunto de datos demasiado grande para caber en la memoria, por lo que las sugerencias de Nilesh probablemente sean buenas desde ese punto de vista.
Sin embargo, me gustaría llamar su atención sobre la sección de paralelismo explícito en el mismo enlace que Nilesh proporcionó:
Vista de tareas de CRAN: alto rendimiento y computación paralela con R
Esto le permite usar CPU de múltiples núcleos o múltiples computadoras en red, y así hace que muchas operaciones sean varias veces más rápidas. A menudo uso el paquete “Foreach” que se basa en el paquete “paralelo”, ya que son muy fáciles de usar y permiten la comparación fácil de una operación dada en paralelo o en serie. Sin usar un paquete de computación paralela, R solo usará un núcleo de su CPU que puede ser muy ineficiente dado que la mayoría de las CPU modernas tienen 6 u 8 núcleos.
- Cómo pasar al campo de big data sin dejar mi trabajo actual
- ¿Qué tipo de aprendizaje automático debo usar para la clasificación de varias clases si la longitud de mi entrada es diferente en cada ejemplo de entrenamiento?
- ¿Qué es la agregación de datos?
- ¿Cuáles son los requisitos previos necesarios para aprender la administración de big data?
- ¿En qué se diferencian las matemáticas que usan los cuantos de las matemáticas que usan los científicos de datos?
Una trampa muy importante para Big Data en R es tratar con marcos de datos. Muchas operaciones duplicarán el marco de datos en la memoria, lo que puede ser extremadamente lento, ineficiente y provocar errores de memoria. rbind () es un buen ejemplo de esto y, en consecuencia, es una buena práctica crear un marco de datos vacío y luego llenarlo fila por fila en lugar de rbind (), colocando nuevas filas en la parte inferior a medida que ingresan los datos. Allí son paquetes que mejoran esto, pero creo que a menos que sea un problema que encuentre a menudo, no vale la pena aprender la nueva notación, es mucho mejor aprender cómo ser más eficiente con su código R. Una buena solución alternativa en cuanto al rendimiento es utilizar matrices en lugar de marcos de datos, sin embargo, esto limita el contenido a un solo tipo. (y una solución parcial a este límite es utilizar el atributo “nombres” de una matriz para agregar etiquetas / nombres / claves a sus datos si, de lo contrario, todos son del mismo tipo)
¡Que te diviertas!