¿Dónde podemos encontrar conjuntos de datos para procesar? Quiero usar estos datos para mi proyecto Hadoop.

Puede encontrar listas de conjuntos de datos en Github.

Sin embargo, esto puede ser difícil de encontrar simplemente buscando en Github, por lo que generalmente comenzaría buscando en Google.

Una búsqueda en Google podría verse así:

TU INDUSTRIA intitle: conjunto de datos

O

SU INDUSTRIA inurl: conjunto de datos

Para las competencias de Machine Learning, también suelen proporcionar acceso a grandes conjuntos de datos.

Visite kaggle.com para conocer las competencias de Aprendizaje automático / Ciencia de datos y conjuntos de datos relacionados.

Para empezar, encontré una lista de conjuntos de datos en Github que puedes usar.

Aquí hay una gran lista de conjuntos de datos

Esta lista de fuentes de datos públicos se recopila y ordena a partir de blogs, respuestas y respuestas de los usuarios. La mayoría de los conjuntos de datos enumerados a continuación son gratuitos, sin embargo, algunos no lo son. Otras listas asombrosamente impresionantes se pueden encontrar en la increíble lista de awesome-awesomeness y sindresorhus.

La lista se copia del repositorio de Github: caesar0301 / awesome-public-datasets

Agricultura

  • Base de datos PLANTS del Departamento de Agricultura de EE. UU.
  • Base de datos de nutrientes del Departamento de Agricultura de EE. UU.

Biología

  • 1000 genomas
  • American Gut (Proyecto de microbioma)
  • Amplia colección de referencia de bioimagen (BBBC)
  • Enciclopedia amplia de líneas celulares de cáncer (CCLE)
  • Biblioteca de imágenes de celda
  • Datos públicos completos de genómica
  • EBI ArrayExpress
  • EBI Protein Data Bank en Europa
  • Archivo de imágenes piloto de microscopía electrónica (EMPIAR)
  • Proyecto ENCODE
  • Genomas Ensembl
  • Omnibus de expresión génica (GEO)
  • Ontología génica (GO)
  • Interacciones bióticas globales (GloBI)
  • Proyecto LINCS de la Harvard Medical School (HMS)
  • Proyecto de Diversidad del Genoma Humano
  • Proyecto de microbioma humano (HMP)
  • ICOS PSP Benchmark
  • Proyecto internacional HapMap
  • Visor de datos del Journal of Cell Biology
  • MIT Cancer Genomics Data
  • Proteínas NCBI
  • Taxonomía NCBI
  • NCI Genomic Data Commons
  • NIH Microarray de datos o FTP (ver enlace FTP en RAW)
  • Datos de genotipos de OpenSNP
  • Pathguid – Catálogo de interacciones proteína-proteína
  • Banco de datos de proteínas
  • Consorcio de Genómica Psiquiátrica
  • Proyecto PubChem
  • PubGene (ahora Coremine Medical)
  • Catálogo Sanger de Mutaciones Somáticas en Cáncer (COSMIC)
  • Proyecto Sanger Genomics of Drug Sensitivity in Cancer (GDSC)
  • Archivo de lectura de secuencia (SRA)
  • Stanford Microarray Data
  • Depósito de datos originales del Instituto Stowers
  • Base de datos de ciencia de sistemas de dinámica biológica (SSBD)
  • Atlas del genoma del cáncer (TCGA), disponible a través de Broad GDAC
  • El catálogo de la vida
  • El Proyecto Genoma Personal o PGP
  • Datos públicos de UCSC
  • UniGene
  • Recurso Universal de Proteínas (UnitProt)

Clima

  • Índice climático de actuarios
  • Clima australiano
  • Centro meteorológico de aviación: información meteorológica coherente, oportuna y precisa para el sistema mundial de espacio aéreo
  • Clima brasileño – Datos históricos (en portugués)
  • Centro Meteorológico de Canadá
  • Datos climáticos de la UEA (actualizados mensualmente)
  • Evaluación climática europea y conjunto de datos
  • Datos climáticos mundiales desde 1929
  • Servicios de exploración de imágenes globales de la NASA
  • NOAA Clima del Mar de Bering
  • Conjuntos de datos climáticos de NOAA
  • Modelos meteorológicos en tiempo real de NOAA
  • Conjuntos de datos de meteorología y radiación de NOAA SURFRAD
  • Los recursos de datos abiertos del Banco Mundial para el cambio climático
  • Unidad de Investigación Climática UEA
  • WorldClim – Datos climáticos globales
  • WU El tiempo histórico en todo el mundo

Redes complejas

  • Conjunto de datos de la red de citas AMiner
  • CrossRef DOI URLs
  • Conjunto de datos de citas DBLP
  • Colección DIMACS Road Networks
  • NBER Citas de patentes
  • Repositorio de red con herramientas de análisis exploratorio interactivo
  • Recopilación de datos de redes complejas NIST
  • Red de interacción proteína-proteína
  • Red de dependencia de PyPI y Maven
  • Base de datos de citas de Scopus
  • Datos de red pequeños
  • Stanford GraphBase (Steven Skiena)
  • Colección de conjunto de datos de red grande de Stanford
  • Fuentes de datos de la red longitudinal de Stanford
  • La colección de la red Koblenz
  • El Laboratorio de Algoritmos Web (UNIMI)
  • El repositorio de la red Nexus
  • Depósito de datos de red UCI
  • Colección de matriz dispersa de UFL
  • WSU Graph Database

Red de computadoras

  • Páginas web 3.5B de CommonCrawl 2012
  • 53.5B clics web de 100K usuarios en Indiana Univ.
  • Conjuntos de datos de Internet de CAIDA
  • ClueWeb09 – páginas web 1B
  • ClueWeb12 – 733M páginas web
  • Datos web de CommonCrawl durante 7 años
  • CRAWDAD Conjuntos de datos inalámbricos de Dartmouth Univ.
  • Datos de clic de Criteo
  • OONI: Observatorio Abierto de Interferencia de Red – Datos de censura de Internet
  • Datos móviles abiertos por MobiPerf
  • Escaneos de Internet de Sonda Rapid7
  • Telescopio de red UCSD, red IPv4 / 8

Desafíos de datos

  • Base de datos de fuerza bruta
  • Desafíos en el aprendizaje automático
  • CrowdANALYTIX dataX
  • D4D Challenge of Orange
  • DrivenData Competiciones por el bien social
  • ICWSM Data Challenge (desde 2009)
  • Datos de competencia de Kaggle
  • Copa KDD de Tencent 2012
  • Desafío de visualización de datos de Localytics
  • Premio Netflix
  • Desafío de aplicaciones espaciales
  • Telecom Italia Big Data Challenge
  • Conjunto de datos TravisTorrent – Desafío minero MSR’2017
  • Desafío del conjunto de datos de Yelp

ciencia de la Tierra

  • AQUASTAT – Recursos y usos mundiales del agua
  • BODC – datos marinos de ~ 22K vars
  • Modelos de tierra
  • EOSDIS – Datos del sistema de observación de la Tierra de la NASA
  • Sistema integrado de observación marina (IMOS): aproximadamente 30 TB de mediciones oceánicas o en S3
  • Marinexplore – Datos oceanográficos abiertos
  • Base de datos global de erupciones y volcanes de la Institución Smithsonian
  • Archivos del terremoto de USGS

Ciencias económicas

  • Asociación Económica Americana (AEA)
  • EconData de UMD
  • Datos de la libertad económica del mundo
  • Estadísticas históricas de MacroEconomc
  • Base de datos de economía internacional y varias herramientas de datos
  • Estadísticas de comercio internacional
  • Base de datos de código de producto de Internet
  • Centro de datos de deuda externa conjunta
  • Enlaces de datos de comercio internacional de Jon Haveman
  • OpenCorporates Database of Companies in the World
  • Nuestro mundo en datos
  • Conjuntos de datos de gravedad del comercio mundial de SciencesPo
  • El atlas de la complejidad económica
  • El centro de datos internacionales
  • El Observatorio de Complejidad Económica
  • Estadísticas de comercio de productos básicos de la ONU
  • Informes de desarrollo humano de la ONU

Educación

  • Datos del cuadro de mando universitario
  • Datos del estudiante de Free Code Camp

Energía

  • AMPds
  • AZUL
  • CARDADO
  • Puerto de datos
  • DRED
  • ECO
  • EIA
  • HES – Estudio de electricidad doméstica, Reino Unido
  • HFED
  • iAWE
  • PLAID: el conjunto de datos de identificación del dispositivo Plug Load
  • REDD
  • Tracebase
  • UK-DALE – Electricidad a nivel de electrodomésticos del Reino Unido
  • BLANCO

Financiar

  • CBOE Futures Exchange
  • Google Finance
  • Tendencias de Google
  • NASDAQ
  • NYSE Market Data (ver enlace FTP en RAW)
  • OANDA
  • Datos financieros de la OSU
  • Quandl
  • St Louis Federal
  • Yahoo Finanzas

SIG

  • Portal de datos abiertos de ArcGIS
  • Datos de Cambridge, MA, EE. UU., SIG en GitHub
  • Datos de ubicación global fácticos
  • Datos geoespaciales de ASU
  • Proyecto Geo Wiki – Monitoreo ambiental impulsado por los ciudadanos
  • GeoFabrik: datos de OSM extraídos en una variedad de formatos y áreas
  • GeoNames en todo el mundo
  • Base de datos de áreas administrativas globales (GADM)
  • Datos de nivel de la Fundación de Infraestructura Nacional
  • Landsat 8 en AWS
  • Lista de todos los países en todos los idiomas.
  • Portal de datos SIG del Servicio Meteorológico Nacional
  • Tierra natural – vectores y rasters del mundo
  • OpenAddresses
  • OpenStreetMap (OSM)
  • Pléyades – Diccionario geográfico y gráfico de lugares antiguos
  • Geocoder inverso utilizando datos OSM y archivos de datos adicionales de alta resolución
  • TIGRE / Línea – Límites y carreteras de EE. UU.
  • TwoFishes – Geocodificador grueso de Foursquare
  • TZ Timezones shapfiles
  • Datos ambientales de la ONU
  • Límites mundiales del Departamento de Estado de EE. UU.
  • Países del mundo en múltiples formatos

Gobierno

  • Una lista de ciudades y países aportados por la comunidad.
  • Datos abiertos para África
  • La lista de OpenDataSoft de 1,600 datos abiertos

Cuidado de la salud

  • EHDP grandes conjuntos de datos de salud
  • Bases de datos demográficas de Gapminder World
  • Base de datos de cobertura de Medicare (MCD), EE. UU.
  • Motor de datos de Medicare de datos de medicare.gov
  • Archivo de datos de Medicare
  • MeSH, el diccionario de sinónimos utilizado para indexar artículos para PubMed
  • Número de casos y muertes por ébola en países afectados (2014)
  • Open-ODS (estructura del NHS del Reino Unido)
  • OpenPaymentsData, datos de relaciones financieras de atención médica
  • El proyecto Atlas del genoma del cáncer (TCGA) y la tabla BigQuery
  • Observatorio Mundial de la Salud de la Organización Mundial de la Salud

Procesamiento de imágenes

  • 10k Base de datos de rostros adultos de EE. UU.
  • 2GB de fotos de gatos o versión de archivo
  • Adience Caras sin filtro para la clasificación de género y edad
  • Clasificación de imagen afectiva
  • Animales con atributos
  • Punto de referencia de detección de peatones Caltech
  • Conjunto de datos Chars74K, reconocimiento de caracteres en imágenes naturales (tanto en inglés como en kannada están disponibles)
  • Benchmark de reconocimiento facial
  • GDXray: imágenes de rayos X para pruebas de rayos X y visión por computadora
  • ImageNet (en la jerarquía de WordNet)
  • Reconocimiento de escena interior
  • Sistema Internacional de Imagen Afectiva, UFL
  • Estímulos de memoria visual masiva, MIT
  • Base de datos MNIST de dígitos escritos a mano, cerca de 1 millón de ejemplos
  • Varios conjuntos de datos de forma desde silueta
  • Conjunto de datos de Stanford Dogs
  • Base de datos SUN, MIT
  • El desafío del etiquetado de similitud de acción (ASLAN)
  • El conjunto de datos de mascotas Oxford-IIIT
  • Flujos violentos: base de datos y referencia de no violencia de multitudes
  • Genoma visual
  • Base de datos de caras de YouTube

Aprendizaje automático

  • Conjuntos de datos conscientes del contexto de cinco dominios
  • Delve Datasets para clasificación y regresión (Univ. De Toronto)
  • Datos mensuales de Discogs
  • Subastas en línea de eBay (2012)
  • Base de datos de IMDb
  • Depósito de quillas para clasificación, regresión y series de tiempo
  • Rostros etiquetados en la naturaleza (LFW)
  • Datos de préstamos del Club de préstamos
  • Repositorio de conjunto de datos de aprendizaje automático
  • Million Song Dataset
  • Más conjuntos de datos de canciones
  • Conjuntos de datos de MovieLens
  • Calificaciones del concurso de subtítulos para neoyorquinos
  • RDataMining – Datos del libro electrónico “R and Data Mining”
  • Meteoritos Registrados en la Tierra
  • Datos de puntuación de salud de restaurantes en San Francisco
  • Depósito de aprendizaje automático de UCI
  • Yahoo! Calificaciones y datos de clasificación
  • Youtube 8m

Museos

  • Datos abiertos de la Corporación de Museos de Ciencia y Tecnología de Canadá
  • Base de datos de la colección de Cooper-Hewitt
  • Metadatos del Instituto de Artes de Minneapolis
  • Portal de datos del Museo de Historia Natural (Londres)
  • Colección de arte histórico del Rijksmuseum
  • Tada Collection metadata
  • Los vocabularios de Getty

Lenguaje natural

  • Extracción automática de frase clave
  • Blogger Corpus
  • CLIPS Stylometry Investigation Corpus
  • ClueWeb09 FACC
  • ClueWeb12 FACC
  • DBpedia – 4.58 millones de cosas con 583 millones de datos
  • Flickr Taxonomías personales
  • Freebase.com de personas, lugares y cosas
  • Google Books Ngrams (2.2TB)
  • Google MC-AFP, generado en base al conjunto de datos de Gigaword disponible al público utilizando vectores de párrafo
  • Google Web 5gram (1TB, 2006)
  • Lista de libros electrónicos de Gutenberg
  • Hansards fragmentos de texto del Parlamento canadiense
  • Prueba de comprensión de la máquina (MCTest) de texto de Microsoft Research
  • Traducción automática de lenguas europeas
  • Microsoft MAchine Reading COmprehension Dataset (o MS MARCO)
  • Conjunto de datos de sentimiento multidominio (versión 2.0)
  • Wordnet multilingüe abierto
  • Personae Corpus
  • SaudiNewsNet Colección de artículos de periódicos sauditas (árabe, 30,000 artículos)
  • Colección de spam de SMS en inglés
  • Dependencias universales
  • Corpus de publicaciones de USENET de 2005 ~ 2011
  • Webhose – Noticias / Blogs en varios idiomas
  • Wikidata – bases de datos de Wikipedia
  • Datos de enlaces de Wikipedia: 40 millones de entidades en contexto
  • Bases de datos y herramientas de WordNet

Neurociencia

  • Conjuntos de datos del Instituto Allen
  • Catálogo del cerebro
  • Brainomics
  • CodeNeuro Datasets
  • Investigación colaborativa en neurociencia computacional (CRCNS)
  • FCP-INDI
  • Proyecto de conectoma humano
  • NDAR
  • NeuroData
  • Neuroelectro
  • NIMH Data Archive
  • OASIS
  • OpenfMRI
  • Estudiar forrest

Física

  • Portal de datos abiertos del CERN
  • Base de datos abierta de cristalografía
  • Archivo de exoplanetas de la NASA
  • Datos de NSSDC (NASA) de 550 naves espaciales
  • Sloan Digital Sky Survey (SDSS) – Mapping the Universe

Psicología / Cognición

  • Conjuntos de datos del repositorio de modelado cognitivo de OSU

Dominios Publicos

  • Amazonas
  • Archivarlo desde Internet Archive
  • Conjuntos de datos de Archive.org
  • Archivo de datos CMU JASA
  • Colecciones de CMU StatLab
  • Data.World
  • Data360
  • Datamob.org
  • Google
  • Infochimps
  • Colecciones de datos de KDNuggets
  • Conjuntos de datos gratuitos de Microsoft Azure Data Market
  • Ciencia de datos de Microsoft para investigación
  • Numbray
  • Volcados de datos de biblioteca abierta
  • Conjuntos de datos de Reddit
  • Colección RevolutionAnalytics
  • Conjuntos de datos de muestra R
  • Conjuntos de datos Stats4Stem R
  • StatSci.org
  • La lista de correos de Washington
  • Recolección de datos de UCLA SOCR
  • Informes de ovnis
  • Interceptor de buscapersonas Wikileaks 911
  • Yahoo Webscope

Los motores de búsqueda

  • Torrents académicos de intercambio de datos desde UMB
  • Datahub.io
  • DataMarket (Qlik)
  • Harvard Dataverse Network de datos científicos
  • ICPSR (UMICH)
  • Instituto de ciencias de la educación
  • Biblioteca Nacional de Informes Técnicos
  • Certificados de datos abiertos (beta)
  • OpenDataNetwork: un motor de búsqueda de todos los portales de datos con tecnología Socrata
  • Statista.com – estadísticas y estudios
  • Zenodo: un hogar abierto y confiable para la larga cola de la ciencia

Redes sociales

  • 72 horas #gamergate Twitter Scrape
  • Ancestry.com Forum Dataset más de 10 años
  • Cheng-Caverlee-Lee Septiembre de 2009 – Enero de 2010 Twitter Scrape
  • CMU Enron Correo electrónico de 150 usuarios
  • EDRM Enron EMail de 151 usuarios, alojado en S3
  • Raspado de datos de Facebook (2005)
  • Redes sociales de Facebook de LAW (desde 2007)
  • Cuadrangular de UMN / Sarwat (2013)
  • Archivo de colaboración de GitHub
  • Relaciones de citas de Google Académico
  • Redes de contacto de alta resolución de sensores portátiles
  • Redes sociales móviles de UMASS
  • Network Twitter Data
  • Comentarios de Reddit
  • Conjunto de datos de reseñas de viajes aéreos de Skytrax
  • Datos sociales de Twitter
  • Datos de investigación de SourceForge.net
  • Datos de Twitter para la gestión de la reputación en línea
  • Datos de Twitter para el análisis de sentimientos
  • Gráfico de Twitter de todo el sitio de Twitter
  • Twitter Scrape Calufa Mayo 2011
  • Conjuntos de datos de redes sociales UNIMI / LAW
  • Yahoo! Gráfica y datos sociales
  • Youtube Video Social Graph en 2007,2008

Ciencias Sociales

  • ACLED (Proyecto de datos de eventos y ubicación de conflictos armados)
  • Instituto Canadiense de Información Legal
  • Centro de conjuntos de datos de paz sistémicos: tendencias de conflictos, políticas, fragilidad estatal, etc.
  • Proyecto Correlatos de Guerra
  • Artículos de la teoría de la conspiración de criptón
  • Tarjetas de datos
  • Encuesta social europea
  • FBI Hate Crime 2013 – datos agregados
  • Índice de Estados frágiles
  • Base de datos de eventos globales de GDELT
  • Encuesta social general (GSS) desde 1972
  • Encuesta social alemana
  • Proyecto Global de Futuros Religiosos
  • Intercambio de datos humanitarios
  • Índice INFORM para la gestión de riesgos
  • Instituto de estudios demográficos
  • Archivo de redes internacionales
  • Programa Internacional de Encuesta Social ISSP
  • Proyecto de Compendio de Estudios Internacionales
  • James McGuire Cross National Data
  • MacroData Guide por Norsk samfunnsvitenskapelig datatjeneste
  • Centro de población de Minnesota
  • Conjunto de datos MIT Reality Mining
  • Índice de adaptación global de Notre Dame (NG-DAIN)
  • Crimen abierto y datos policiales en Inglaterra, Gales e Irlanda del Norte
  • Página de datos internacionales generales de Paul Hensel
  • Proyecto de encuesta por Internet PewResearch
  • Recopilación de datos de la sociedad PewResearch
  • Datos de polaridad política
  • StackExchange Data Explorer
  • Consorcio de Investigación y Análisis del Terrorismo
  • Presos de Texas ejecutados desde 1984
  • Conjunto de datos de supervivencia titánica o en Kaggle
  • Archivo de datos de ciencias sociales de la UCB (D-Lab)
  • Archivo de datos de ciencias sociales de UCLA
  • Base de datos de la sociedad civil de la ONU
  • Universidades de todo el mundo
  • UPJOHN para Investigación Laboral Laboral
  • Programa de datos de conflictos de Uppsala
  • Datos abiertos del Banco Mundial
  • Proyecto WorldPop – Distribuciones mundiales de población humana

Software

  • Datos de FLOSSmole sobre el desarrollo de software libre, libre y de código abierto

Deportes

  • Base de datos y estadísticas de jugadores de baloncesto (NBA / NCAA / Euro)
  • Datos de intercambio histórico de Betfair
  • Partidos de cricsheet (cricket)
  • Ergast Formula 1, desde 1950 hasta la fecha (API)
  • Fútbol / Recursos de fútbol (datos y API)
  • Base de datos de béisbol de Lahman
  • Pinhooker: datos de venta de sangre sangrienta pura sangre
  • Retrosheet Estadísticas de Béisbol
  • Base de datos de tenis de clasificaciones, resultados y estadísticas para ATP, WTA, Grand Slams y Match Charting Project

Series de tiempo

  • Databanks International Cross National Time Series Archivo de datos
  • Tasas de falla del disco duro
  • Serie de tiempo de frecuencia cardíaca del MIT
  • Biblioteca de datos de series temporales (TSDL) de MU
  • Conjunto de datos de la serie temporal de UC Riverside

Transporte

  • Datos OD de aerolíneas 1987-2008
  • Bay Area Bike Compartir datos
  • Colección Bike Share Systems (BSS)
  • GeoLife GPS Trayectoria de Microsoft Research
  • Sistema de trenes alemán por Deutsche Bahn
  • Hubway Million Rides en MA
  • Tráfico marítimo: pistas de barcos, escala de puertos y más
  • Montreal BIXI Bike Share
  • Datos del viaje en taxi de Nueva York 2009-
  • Datos del viaje en taxi de Nueva York 2013 (FOIA / FOILed)
  • Datos de viaje de NYC Uber de abril de 2014 a septiembre de 2014
  • Colección de tráfico abierto
  • OpenFlights – aeropuerto, aerolínea y datos de ruta
  • Estaciones de bicicletas compartidas de Filadelfia (JSON)
  • Plane Crash Database, desde 1920
  • Datos de rendimiento a tiempo de la aerolínea RITA
  • Recopilación de datos de transporte RITA / BTS (TranStat)
  • Toronto Bike Share Stations (archivo XML)
  • Transporte para Londres (TFL)
  • Encuesta de seguimiento de viajes (TTS) para Chicago
  • Oficina de Estadísticas de Transporte de EE. UU. (BTS)
  • Vuelos nacionales de EE. UU. 1990 a 2009
  • Marco de análisis de carga de EE. UU. Desde 2007

Colecciones complementarias

  • Conjuntos de datos básicos empaquetados de datos
  • Base de datos de contribuciones de código científico
  • Una creciente colección de conjuntos de datos públicos: CoolDatasets.
  • DataWrangling: algunos conjuntos de datos disponibles en la web
  • Inside-r: encontrar datos en Internet
  • OpenDataMonitor: una visión general de los recursos de datos abiertos disponibles en Europa
  • Quora: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • rs.io – como ser golpeado en el cerebro: más de 100 conjuntos de datos interesantes para estadísticas
  • StaTrek: aprovechando los datos abiertos para comprender la vida urbana