¿Es R una opción correcta para hacer un análisis predictivo en un conjunto de datos con más de 100K registros? Si no, ¿cuál es?

Hola

Déjame ser específico aquí.

He trabajado en R con un conjunto de datos con ~ 500K observaciones. Se ralentizó pero funcionó bien con el soporte de sus increíbles paquetes y algunas técnicas para acelerar la informática.

¿Cuáles son las últimas informaciones de big data?
¿Cómo son los hitos del proyecto de ciencia de datos y cómo se entrega un proyecto de ciencia de datos?
¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?
¿Cuál es la mejor tecnología para procesar big data además de Hadoop y Spark?
¿Qué es la ingeniería de datos? ¿Qué hace un ingeniero de datos? ¿Cuáles son las responsabilidades comunes de un ingeniero de datos?

Una de las técnicas que uso con frecuencia es que, cuando tengo datos grandes, nunca trabajo con funciones anidadas de varios niveles. Se ralentiza el procesamiento. En cambio, debe ser inteligente y juicioso con los paquetes R. Esa es la belleza de R. Hay un paquete para cada bit de cómputo que desea hacer. Todo lo que necesitas hacer es encontrarlo.

R Los usuarios están bendecidos con paquetes como doparallel, nieve, nevadas, etc., que le permiten colocar múltiples núcleos de sus máquinas para el cálculo.

Pero, eso no es todo!

Creo firmemente que el tiempo de cómputo tomado depende del algoritmo elegido. Supongamos que tiene una máquina de 4 GB de RAM. Tienes un conjunto de datos con 500K de obesidad. Desea hacer predicciones. En este escenario, si elige trabajar con el algoritmo de Regresión, no enfrentaría ningún problema. Por el contrario, si decide trabajar con el algoritmo CART (digamos ntree = 1000), el tiempo de cálculo será mucho más largo (hasta varias horas).

Por lo tanto, definitivamente puede trabajar con datos> 100K usando R. Simplemente, tenga cuidado con la selección de algoritmos, funciones y paquetes que usaría. Entonces, ¿puede R manejar más que un conjunto de datos con más de> 500K observaciones? Puede que tengas esta pregunta. Si ese es el caso, diría que aprendas SparkR. Es increíblemente rápido y eficiente.

¿Cuáles son algunos pasatiempos que a los científicos de datos les gustan?

¿Crees que Data Science es fácil de aprender?

¿Cuáles son los mejores KPI para el equipo de Data Science?

¿Cuáles son los requisitos previos para aprender Hadoop y la ciencia de datos?

Cómo obtener una dirección MAC remota en Python con bibliotecas integradas

¿Cuáles son algunas de las revisiones de Big Data y el certificado de análisis social de MITx?

No debe preocuparse por R, sino por dónde se ejecutará y qué quiere hacer con él. Un conjunto de datos con 100K filas es algo pequeño, incluso para conjuntos de datos relativamente amplios. En las últimas semanas, ejecuté análisis y prototipos de productos de datos en mi computadora portátil en múltiples conjuntos de datos con más de 30 millones de registros y R se comportó como se esperaba. Si esos conjuntos de datos fueran amplios, probablemente necesitaría encontrar otra solución.

En lo que respecta a R, su preocupación por el tamaño de los datos está relacionada principalmente con la cantidad de memoria física disponible en su sistema. Si puede ajustar su conjunto de datos en la RAM de su sistema, ¡ya está listo!

Su otra preocupación es lo que piensa hacer. Personalmente, no me gusta R para PNL, por ejemplo. Su producto final puede o no beneficiarse con el uso de R.

Manish Saraswat

Depende del número de columnas / variables en su muestra de datos y también del tamaño de la RAM de su sistema, ya que R mantiene todo en RAM de forma predeterminada.

La segunda mejor alternativa es SAS. Si está trabajando en un proyecto de aprendizaje, puede instalar y usar la edición universitaria de SAS que es gratuita.

algún enlace útil sobre modelado predictivo

Ram Prajapat

Si utiliza la versión de servidor de R que tiene una buena capacidad informática, no. de registros no será una restricción para ningún modelo o análisis.

R alojado en AWS (S3) es una combinación brillante para hacer lo que se propone.

Manish Saraswat

More Interesting

¿Cuál es la diferencia entre una maestría en MFE y una maestría en ciencias de datos, especialmente su futura carrera?

¿Es mejor tener demasiados falsos positivos o demasiados falsos negativos?

¿Cuál es un truco genial para el análisis de datos en Excel?

¿Qué es la ciencia de datos y cómo se relaciona Python con ella?

En el aprendizaje automático, si no sé mucho sobre la corrección de lo anterior, ¿puedo tratar de corregir el modelo a través de grandes cantidades de datos de entrenamiento?

¿Cuáles son algunas aplicaciones de la ciencia de datos en neurociencia?

¿Existe una demanda de escritores técnicos que se especialicen en ciencia de datos?

¿Cuánto debería cobrar un estadístico por el análisis de big data?

¿Cómo uso el aprendizaje automático para datos espaciales?