Si tiene una máquina lo suficientemente potente, puede usar R o Python para hacer resúmenes del conjunto de datos, pero puede esperar largos tiempos de procesamiento. El mejor enfoque aquí es alojar el archivo en un clúster de Hadoop y luego procesarlo dentro de Apache Spark.
Si su archivo es un archivo CSV, simplemente puede usar read.csv () en el paquete base R para leer su archivo de datos. Alternativamente, podría usar Python para su análisis de datos, específicamente, la biblioteca de pandas para el análisis de datos tabulares. Si sus datos están estructurados, los pandas pueden inferir tipos y construir un marco de datos, además del cual se pueden realizar varias operaciones.
Para el análisis de datos escalables, puede usar Apache Spark. Spark 2.1 y superior viene con soporte nativo de CSV, y puede usar esto para leer su archivo, si está alojado en Hadoop.
- ¿Cómo comparar los algoritmos de clasificación de minería de datos? ¿Hay algún parámetro / punto de referencia para ello?
- ¿Existe una comunidad de ciencia de datos en Egipto?
- ¿Dónde encaja Java en una atmósfera de Big Data?
- Por lo general, en la tercera sección de un artículo describimos el tipo de datos, la fuente de datos, el análisis de datos, etc. ¿Es este un método o una sección de metodología?
- ¿El análisis exploratorio de datos no es necesario para el aprendizaje profundo?