Tengo un dato de 50 filas de Lakh. ¿Cómo lo abro en R o Python? ¿O hay alguna otra alternativa que no sea usar Hadoop?

Si tiene una máquina lo suficientemente potente, puede usar R o Python para hacer resúmenes del conjunto de datos, pero puede esperar largos tiempos de procesamiento. El mejor enfoque aquí es alojar el archivo en un clúster de Hadoop y luego procesarlo dentro de Apache Spark.

Si su archivo es un archivo CSV, simplemente puede usar read.csv () en el paquete base R para leer su archivo de datos. Alternativamente, podría usar Python para su análisis de datos, específicamente, la biblioteca de pandas para el análisis de datos tabulares. Si sus datos están estructurados, los pandas pueden inferir tipos y construir un marco de datos, además del cual se pueden realizar varias operaciones.

Para el análisis de datos escalables, puede usar Apache Spark. Spark 2.1 y superior viene con soporte nativo de CSV, y puede usar esto para leer su archivo, si está alojado en Hadoop.

El popular paquete data.table es extremadamente útil para importar grandes conjuntos de datos. Su función fread () está destinada a importar datos de archivos delimitados regulares directamente a R sin desvíos.

biblioteca (data.table)
data <- fread ("test.csv", sep = ",", header = TRUE)

A continuación encontrará el tiempo necesario para leer un archivo de 50 MB en R utilizando diferentes métodos.

system.time (DF1 <-read.csv ("test.csv", stringsAsFactors = FALSE))
# 60 segundos (primera vez en una nueva sesión de R)

system.time (DF1 <- read.csv ("test.csv", stringsAsFactors = FALSE))
# 30 segundos (la repetición inmediata es más rápida, varía)

system.time (DF2 <- read.table ("test.csv", header = TRUE, sep = ","))
# 10 segundos

system.time (DT <- fread ("test.csv"))
# 3 seg

En R, instale el paquete data.table y luego use su función fread () para leer / abrir su archivo.

More Interesting

¿Cuál es su consejo para un par de desarrolladores que van a comenzar una pequeña empresa de análisis de datos?

¿Cuál es el mejor para un científico de datos / curso analítico y certificaciones, Coursera o Udemy?

¿Cuánto más complejo es el desarrollo de IA en comparación con el desarrollo de aplicaciones móviles sociales?

¿Cuál tiene más alcance entre los tres para un trabajo más fresco en BPO después de B.Tech: CCIE, Data Science (Big Data y SAS), MBA?

¿Qué debo hacer para implementar un código de aprendizaje automático y resolver con éxito un problema en kaggle.com?

¿Para qué tipo de problemas es poco adecuado el aprendizaje automático?

¿Por qué se utiliza el índice de mapa de bits en el almacenamiento de datos?

¿De qué maneras una empresa de radio puede beneficiarse de Big Data?

Como soy débil en matemáticas, ¿puedo seguir la maestría en ciencia de datos?

¿Qué trabajo se da a los estudiantes de primer año en el análisis de datos?

¿Completan los siguientes dos certificados en ciencia de datos lo suficiente como para ser competitivos para un trabajo de aprendizaje automático si estoy comenzando este campo desde cero?

Quiero convertirme en un científico de datos, ¿cómo me convierto en un buen estadístico? ¿Cuáles son buenos libros, conferencias, blogs, etc. que mejorarán mi comprensión de los métodos estadísticos a nivel profesional?

¿Qué programas / certificados cortos me recomiendan sobre Machine Learning, Big Data, AI y campos relacionados?

¿Puede un chico con cero experiencia en codificación, pero con un MBA terminado, superarlo si está muy interesado en aprender ciencia de datos?

¿Qué se requieren todos los lenguajes de programación para la ciencia de datos?