¿Qué herramientas usan los científicos de datos para ver y seleccionar datos de archivos CSV?

Sugiero que “ver y seleccionar” significa la capacidad de realizar consultas ad-hoc a los datos CSV. En la mayoría de los casos, la forma más sencilla de lograr eso es importar archivos CSV a la base de datos SQL:

para archivos CSV pequeños y medianos (digamos, hasta varios Gb en común) puede usar SQLite DB y sqlite3.exe (Command Line Shell For SQLite) para importar CSV (comando .import)
para archivos CSV grandes puede usar MySQL (cargar datos con
Comando LOAD DATA INFILE) u otro DB popular: la mayoría de ellos admiten la carga rápida de datos desde archivos CSV / TSV
para archivos CSV enormes (cientos de Gb en común), recomiendo usar un almacén de datos basado en la nube como Amazon Redshift

Tenga en cuenta que si la razón principal para ver y seleccionar es la agregación de datos CSV, puede usar herramientas especializadas como:

La utilidad de línea de comandos PivotData puede cargar datos directamente desde un archivo CSV, realizar agregaciones en memoria, filtrar datos, producir resultados en CSV o bonitas tablas dinámicas HTML
seektable.com es una herramienta gratuita de BI web donde puede cargar archivos CSV y realizar análisis ad-hoc con tablas dinámicas

Análisis deAnálisis de Big DataBig DataCiencia de datosdatosEmpleos y carreras en Ciencia de datosMinería de

¿Cómo puede un negocio crecer usando Big Data?

¿Hay algún programa de CS o análisis en línea sobre programación, ciencia de datos y big data con una universidad prestigiosa? Mi presupuesto es de $ 20,000- $ 30,000.

¿Cuál es la mejor computadora portátil Big Data?

¿Cuáles son algunas necesidades de análisis de datos insatisfechos o de abastecimiento público relacionadas con el problema del cambio climático?

¿Cuáles son las implicaciones de la misión Rosetta aterrizando en el cometa 67P?

¿Cuáles son las mejores herramientas de software para trabajar con grandes conjuntos de datos financieros (> 50 gb), por ejemplo, datos de acciones de CRSP?

Querido Feinstein.
Hay tantas herramientas para trabajar csv en el mundo. Pero desde 2009 comencé a crear la herramienta rápida y necesaria. Se llama CSV Comp Framework.
Cada archivo csv parece una verdadera tabla relacional. Usando el lenguaje de sintaxis CQL, podrá hacer transecciones reales. Puede usar el lenguaje de consulta de comas (CQL) incrustado en su lenguaje de programación favorito
Ahora, estoy creando una gran API con cql incrustado en tantos idiomas:
-Lua
-Pascal
-Pitón
-Java
-Rubí
-Dardo
…
Puede trabajar con un control de edición completa como este:
{your_csv_table; @algo; (data_to_find); 0; 0; 0; query = 0; destino = 0}

o ahora puede trabajar con cql incrustar en Python:
find_anything (db, table, data_to_find)
la función anterior es
db = directorio
tabla = su archivo csv
data_to_find = es auto

Pero funciona en el escritorio y el servidor web. Mire la muestra donde se creó el sitio fuul con CSV Comp (hasta las páginas dinámicas)

Visite el blog oficial: @Adl Desenvolvimento Ltda
(este es el punto de referencia)

John Williams

Los científicos de datos están utilizando lenguajes como Pig y Hive para cargar, ver, modificar y guardar en HDFS.

Yuval Feinstein

Prueba csvkit:

Once cosas increíbles que puedes hacer con csvkit

Daniel Thompson

Eche un vistazo a sqlizer.io, analizará cualquier archivo CSV y creará un script SQL para colocar todos los datos en una base de datos MySQL para que pueda escribir consultas SQL en él.

Vitaliy Fedorchenko

Agregando a la respuesta de Vitaliy Fedorchenko, simplemente podemos usar un lenguaje de programación como R y Python para CSV más pequeños que no valen la pena ponerlo en una base de datos.

Yuval Feinstein

More Interesting

¿Cómo comenzaría la optimización de negocios utilizando análisis de datos y aprendizaje automático?

¿Cuál es la mejor arquitectura de chispa (big data) crees que para este caso de uso?

¿Qué tan básicos son los datos en Uber?

¿Es útil el nanogrado de Udacity para cambiar el campo de la ingeniería mecánica a la ciencia de datos?

¿Qué significa "casi todas las herramientas de software estadístico disponibles para los científicos alientan el modelado paramétrico y, por lo tanto, el diseño de experimentos basados en suposiciones sobre la distribución de datos que están equivocados"?

¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?

¿Cuáles son algunos métodos básicos / comunes utilizados para resumir datos?

¿Qué tan malo es estandarizar variables ficticias?

Cómo obtener un gran conjunto de datos para simular big data

¿Qué es Big Data y cómo se relaciona con las bases de datos?