Hola
Déjame ser específico aquí.
He trabajado en R con un conjunto de datos con ~ 500K observaciones. Se ralentizó pero funcionó bien con el soporte de sus increíbles paquetes y algunas técnicas para acelerar la informática.
- ¿Cuáles son las últimas informaciones de big data?
- ¿Cómo son los hitos del proyecto de ciencia de datos y cómo se entrega un proyecto de ciencia de datos?
- ¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?
- ¿Cuál es la mejor tecnología para procesar big data además de Hadoop y Spark?
- ¿Qué es la ingeniería de datos? ¿Qué hace un ingeniero de datos? ¿Cuáles son las responsabilidades comunes de un ingeniero de datos?
Una de las técnicas que uso con frecuencia es que, cuando tengo datos grandes, nunca trabajo con funciones anidadas de varios niveles. Se ralentiza el procesamiento. En cambio, debe ser inteligente y juicioso con los paquetes R. Esa es la belleza de R. Hay un paquete para cada bit de cómputo que desea hacer. Todo lo que necesitas hacer es encontrarlo.
R Los usuarios están bendecidos con paquetes como doparallel, nieve, nevadas, etc., que le permiten colocar múltiples núcleos de sus máquinas para el cálculo.
Pero, eso no es todo!
Creo firmemente que el tiempo de cómputo tomado depende del algoritmo elegido. Supongamos que tiene una máquina de 4 GB de RAM. Tienes un conjunto de datos con 500K de obesidad. Desea hacer predicciones. En este escenario, si elige trabajar con el algoritmo de Regresión, no enfrentaría ningún problema. Por el contrario, si decide trabajar con el algoritmo CART (digamos ntree = 1000), el tiempo de cálculo será mucho más largo (hasta varias horas).
Por lo tanto, definitivamente puede trabajar con datos> 100K usando R. Simplemente, tenga cuidado con la selección de algoritmos, funciones y paquetes que usaría. Entonces, ¿puede R manejar más que un conjunto de datos con más de> 500K observaciones? Puede que tengas esta pregunta. Si ese es el caso, diría que aprendas SparkR. Es increíblemente rápido y eficiente.