¿Qué herramientas usan los científicos de datos para ver y seleccionar datos de archivos CSV?

Sugiero que “ver y seleccionar” significa la capacidad de realizar consultas ad-hoc a los datos CSV. En la mayoría de los casos, la forma más sencilla de lograr eso es importar archivos CSV a la base de datos SQL:

  • para archivos CSV pequeños y medianos (digamos, hasta varios Gb en común) puede usar SQLite DB y sqlite3.exe (Command Line Shell For SQLite) para importar CSV (comando .import)
  • para archivos CSV grandes puede usar MySQL (cargar datos con
    Comando LOAD DATA INFILE) u otro DB popular: la mayoría de ellos admiten la carga rápida de datos desde archivos CSV / TSV
  • para archivos CSV enormes (cientos de Gb en común), recomiendo usar un almacén de datos basado en la nube como Amazon Redshift

Tenga en cuenta que si la razón principal para ver y seleccionar es la agregación de datos CSV, puede usar herramientas especializadas como:

  • La utilidad de línea de comandos PivotData puede cargar datos directamente desde un archivo CSV, realizar agregaciones en memoria, filtrar datos, producir resultados en CSV o bonitas tablas dinámicas HTML
  • seektable.com es una herramienta gratuita de BI web donde puede cargar archivos CSV y realizar análisis ad-hoc con tablas dinámicas

Querido Feinstein.
Hay tantas herramientas para trabajar csv en el mundo. Pero desde 2009 comencé a crear la herramienta rápida y necesaria. Se llama CSV Comp Framework.
Cada archivo csv parece una verdadera tabla relacional. Usando el lenguaje de sintaxis CQL, podrá hacer transecciones reales. Puede usar el lenguaje de consulta de comas (CQL) incrustado en su lenguaje de programación favorito
Ahora, estoy creando una gran API con cql incrustado en tantos idiomas:
-Lua
-Pascal
-Pitón
-Java
-Rubí
-Dardo

Puede trabajar con un control de edición completa como este:
{your_csv_table; @algo; (data_to_find); 0; 0; 0; query = 0; destino = 0}

o ahora puede trabajar con cql incrustar en Python:
find_anything (db, table, data_to_find)
la función anterior es
db = directorio
tabla = su archivo csv
data_to_find = es auto

Pero funciona en el escritorio y el servidor web. Mire la muestra donde se creó el sitio fuul con CSV Comp (hasta las páginas dinámicas)

Visite el blog oficial: @Adl Desenvolvimento Ltda
(este es el punto de referencia)

Los científicos de datos están utilizando lenguajes como Pig y Hive para cargar, ver, modificar y guardar en HDFS.

Prueba csvkit:

Once cosas increíbles que puedes hacer con csvkit

Eche un vistazo a sqlizer.io, analizará cualquier archivo CSV y creará un script SQL para colocar todos los datos en una base de datos MySQL para que pueda escribir consultas SQL en él.

Agregando a la respuesta de Vitaliy Fedorchenko, simplemente podemos usar un lenguaje de programación como R y Python para CSV más pequeños que no valen la pena ponerlo en una base de datos.

More Interesting

¿Cómo comenzaría la optimización de negocios utilizando análisis de datos y aprendizaje automático?

¿Cuál es la mejor arquitectura de chispa (big data) crees que para este caso de uso?

¿Qué tan básicos son los datos en Uber?

¿Es útil el nanogrado de Udacity para cambiar el campo de la ingeniería mecánica a la ciencia de datos?

¿Qué significa "casi todas las herramientas de software estadístico disponibles para los científicos alientan el modelado paramétrico y, por lo tanto, el diseño de experimentos basados ​​en suposiciones sobre la distribución de datos que están equivocados"?

¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?

¿Cuáles son algunos métodos básicos / comunes utilizados para resumir datos?

¿Qué tan malo es estandarizar variables ficticias?

Cómo obtener un gran conjunto de datos para simular big data

¿Qué es Big Data y cómo se relaciona con las bases de datos?

¿Cuál es la mejor manera de aprender los scripts de shell para la ciencia de datos?

¿Puedo usar el algoritmo de aumento de gradiente para datos con tiempo (año) y latitudes y longitudes como predictores?

¿Un MBA en operación / cadena de suministro ayudará a comenzar una carrera en ciencias analíticas y de datos?

Con más de 50 años, ¿cuáles son mis posibilidades de convertirme en un científico de datos exitoso?

¿Cómo se pueden utilizar las tecnologías e iniciativas de Big Data dentro de las aplicaciones de Sistemas Inteligentes de Transporte (ITS)?