¿Es R una opción correcta para hacer un análisis predictivo en un conjunto de datos con más de 100K registros? Si no, ¿cuál es?

Hola

Déjame ser específico aquí.

He trabajado en R con un conjunto de datos con ~ 500K observaciones. Se ralentizó pero funcionó bien con el soporte de sus increíbles paquetes y algunas técnicas para acelerar la informática.

Una de las técnicas que uso con frecuencia es que, cuando tengo datos grandes, nunca trabajo con funciones anidadas de varios niveles. Se ralentiza el procesamiento. En cambio, debe ser inteligente y juicioso con los paquetes R. Esa es la belleza de R. Hay un paquete para cada bit de cómputo que desea hacer. Todo lo que necesitas hacer es encontrarlo.

R Los usuarios están bendecidos con paquetes como doparallel, nieve, nevadas, etc., que le permiten colocar múltiples núcleos de sus máquinas para el cálculo.

Pero, eso no es todo!

Creo firmemente que el tiempo de cómputo tomado depende del algoritmo elegido. Supongamos que tiene una máquina de 4 GB de RAM. Tienes un conjunto de datos con 500K de obesidad. Desea hacer predicciones. En este escenario, si elige trabajar con el algoritmo de Regresión, no enfrentaría ningún problema. Por el contrario, si decide trabajar con el algoritmo CART (digamos ntree = 1000), el tiempo de cálculo será mucho más largo (hasta varias horas).

Por lo tanto, definitivamente puede trabajar con datos> 100K usando R. Simplemente, tenga cuidado con la selección de algoritmos, funciones y paquetes que usaría. Entonces, ¿puede R manejar más que un conjunto de datos con más de> 500K observaciones? Puede que tengas esta pregunta. Si ese es el caso, diría que aprendas SparkR. Es increíblemente rápido y eficiente.

No debe preocuparse por R, sino por dónde se ejecutará y qué quiere hacer con él. Un conjunto de datos con 100K filas es algo pequeño, incluso para conjuntos de datos relativamente amplios. En las últimas semanas, ejecuté análisis y prototipos de productos de datos en mi computadora portátil en múltiples conjuntos de datos con más de 30 millones de registros y R se comportó como se esperaba. Si esos conjuntos de datos fueran amplios, probablemente necesitaría encontrar otra solución.

En lo que respecta a R, su preocupación por el tamaño de los datos está relacionada principalmente con la cantidad de memoria física disponible en su sistema. Si puede ajustar su conjunto de datos en la RAM de su sistema, ¡ya está listo!

Su otra preocupación es lo que piensa hacer. Personalmente, no me gusta R para PNL, por ejemplo. Su producto final puede o no beneficiarse con el uso de R.

Depende del número de columnas / variables en su muestra de datos y también del tamaño de la RAM de su sistema, ya que R mantiene todo en RAM de forma predeterminada.

La segunda mejor alternativa es SAS. Si está trabajando en un proyecto de aprendizaje, puede instalar y usar la edición universitaria de SAS que es gratuita.

algún enlace útil sobre modelado predictivo

Si utiliza la versión de servidor de R que tiene una buena capacidad informática, no. de registros no será una restricción para ningún modelo o análisis.

R alojado en AWS (S3) es una combinación brillante para hacer lo que se propone.