¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Una lista de diarios de datos (sin ningún orden en particular)
¿Una base de datos de bases de datos abiertas? (también vea las preguntas más votadas en el intercambio de pila de datos abiertos en las preguntas más votadas)
http://www.reddit.com/r/datasets
https: //d396qusza40orc.cloudfron… (gran colección del curso de Análisis de datos de Coursera)
¿Dónde es posible encontrar datos climáticos sin procesar? (también NCAR – Guía de datos climáticos)
El | Wiki de datos ecológicos
PhysioNet: el mayor repositorio de bases de datos gratuitas de acceso abierto y herramientas informáticas de código abierto dedicadas a la informática de señales complejas
Página en sdss.org – SDSS Astronomy datasets. Para más información sobre astronomía, vea ¿Cuáles son algunos conjuntos de datos de astronomía abiertos al público?
http://berkeleyearth.org/dataset… – Conjunto de datos de Berkeley Earth
http://static.reddit.com/RedditS… – encuesta masiva de Redditors y sus preferencias – ver http://blog.reddit.com/2011/09/w… para algunos análisis
Bienvenido al sitio web de intercambio de datos CRCNS – para neurociencia
http://archiveteam.org/index.php… – Archivos antiguos de sitios web que ya no existen. Incluye datos sobre las afinidades de más de 60,000 usuarios de Reddit
http://www.r-bloggers.com/datase… – Conjuntos de datos para practicar su minería de datos – discutido en http://www.reddit.com/r/MachineL…
http://www.ers.usda.gov/Data/ – Conjuntos de datos del Servicio de Investigación Económica del USDA
http://www.mortality.org/ – conjuntos de datos de mortalidad humana
http://www.fda.gov/Food/FoodSafe… – Conjuntos de datos de pesticidas de la FDA
http://www.ams.usda.gov/AMSv1.0/pdp: conjuntos de datos de pesticidas del USDA
Climatología: ¿Cuáles son algunas bases de datos meteorológicas históricas?
http://www.epa.gov/data/ – Datos de la EPA
http://data.giss.nasa.gov/ – Datos de NASA GISS
http://jimwatsonsequence.cshl.edu/ – Secuencia de ADN de James Watson
http: //evidence.personalgenomes…. – genomas públicos de personas inscritas en el proyecto de genoma personal – incluye genomas de Steven Pinker y Esther Dyson (persona de negocios). http: //evidence.personalgenomes…. por sus genomas
http://voteview.org/downloads.asp – Conjuntos de datos de votación del Congreso (probablemente contiene * todo * sobre lo que votó cualquier político)
http://www.norc.uchicago.edu/GSS… – Encuesta social general. Para ver un tutorial, consulte http: //blogs.discovermagazine.co…
http://www.cfa.harvard.edu/hitran/ – base de datos de absorción molecular de transmisión de alta resolución. HITRAN en la web: http://hitran.iao.ru/molecule
http://sarahsinbox.com/ – Correos electrónicos de Sarah Palin – analizados por Edwin Chen usando Asignación de Dirichlet Latente – ver http://blog.echen.me/2011/06/27/…

Algunos otros:

http://www.cdc.gov/nchs/nhanes/n… – Encuesta nacional de examen de salud y nutrición
http://www.nlsinfo.org/ordering/… – Datos de NSLY (sociología) [1]
http://road.hmdc.harvard.edu/ – conjuntos de datos electorales (aunque solo 1984-1990)

[1] Los datos de geocodificación NLSY79 solo pueden ponerse a disposición de los usuarios que hayan completado con éxito una solicitud de geocodificación y hayan firmado un acuerdo de confidencialidad con la Oficina de Estadísticas Laborales de EE. UU. Si está interesado en obtener acceso a los datos de Geocode NLSY79, revise la información en http://stats.bls.gov/nls/nlsgeo7….

Big DataBúsqueda de preguntasCiencia de datosConjuntos de datos

¿Por qué funciona la ciencia de datos?

¿Hay alguna manera de recopilar datos de Facebook de una página de la competencia con fines analíticos?

Cómo usar Kaggle (empresa) si soy un principiante en el campo de la ciencia de datos y quiero publicar un trabajo de investigación lo antes posible y no tengo experiencia previa

¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?

¿Cómo se puede usar MySQL para el análisis de big data?

¿Cuál es la mejor computadora portátil para juegos bajo Rs? ¿38,000 que pueden jugar CoD AW y GTA 5 a una buena velocidad con la configuración predeterminada? ¿Debo comprarlo ahora o en 2016?

Intentaré restringir mis respuestas a conjuntos de datos de más de 1 GB de tamaño, y ordenaré mis respuestas por el tamaño del conjunto de datos.

Más de 1 TB

El proyecto 1000 Genomes pone a disposición 260 TB de datos del genoma humano [13]
Internet Archive está haciendo un rastreo web de 80 TB disponible para investigación [17]
La conferencia TREC puso a disposición el conjunto de datos ClueWeb09 [3] hace unos años. Tendrá que firmar un acuerdo y pagar una tarifa no trivial (hasta $ 610) para cubrir la transferencia de datos de sneakernet. Los datos son aproximadamente 5 TB comprimidos.
ClueWeb12 [21] ya está disponible, al igual que las anotaciones de Freebase, FACC1 [22]
CNetS en la Universidad de Indiana pone a disposición un conjunto de datos de clics de 2.5 TB [19]
ICWSM puso a disposición una gran cantidad de publicaciones de blog para su conferencia de 2011 [2]. Tendrás que registrarte (un formulario real, no un formulario en línea), pero es gratis. Se trata de 2.1 TB comprimidos.
El conjunto de datos de Yahoo News Feed tiene 1.5 TB comprimidos, 13.5 TB sin comprimir
Proteome Commons pone a disposición varios conjuntos de datos de gran tamaño. El más grande, el Proyecto Genoma Personal [11], tiene un tamaño de 1,1 TB. Hay varios más de más de 100 GB de tamaño.

Más de 1 GB

El conjunto de datos de desglose de energía de referencia [12] tiene datos sobre el uso de energía en el hogar; Son unos 500 GB comprimidos.
El conjunto de datos de Tiny Images [10] tiene 227 GB de datos de imágenes y 57 GB de metadatos.
El conjunto de datos de ImageNet [18] es bastante grande.
El dataset MOBIO [14] es de aproximadamente 135 GB de datos de video y audio
El Yahoo! El programa Webscope [7] pone a disposición de los investigadores académicos varios conjuntos de datos de 1 GB +, incluido un conjunto de datos de 83 GB de características de imágenes de Flickr y el conjunto de datos utilizado para la Copa KDD 2011 [9], de Yahoo! Música, que es un poco más de 1 GB.
Google creó un conjunto de datos para asignar palabras a las URL de Wikipedia (es decir, conceptos) [15]. El conjunto de datos tiene unos 10 GB comprimidos.
Yandex recientemente ha hecho disponible un conjunto de datos de clics de búsqueda web muy grande [1]. Tendrás que registrarte en línea para descargar el concurso. Se trata de 5,6 GB comprimidos.
Freebase hace volcados de datos regulares disponibles [5]. El más grande es su volcado Quad [4], que tiene unos 3,6 GB comprimidos.
El Open American National Corpus [8] tiene aproximadamente 4,8 GB sin comprimir.
Wikipedia hizo un conjunto de datos que contenía información sobre ediciones disponibles para una competencia reciente de Kaggle [6]. El conjunto de datos de entrenamiento es de aproximadamente 2.0 GB sin comprimir.
La Administración de Investigación y Tecnología Innovadora (RITA) ha puesto a disposición un conjunto de datos sobre el desempeño a tiempo de los vuelos nacionales operados por grandes aerolíneas. El ASA comprimió este conjunto de datos y lo pone a disposición para su descarga [16].
Los datos de enlaces de wiki disponibles por Google son aproximadamente 1,75 GB en total [20].

[1] http://imat-relpred.yandex.ru/en …

[2] http://www.icwsm.org/2011/data.php

[3] http://lemurproject.org/clueweb0 …

[4] http://wiki.freebase.com/wiki/Da …

[5] http://download.freebase.com/dat …

[6] http://www.kaggle.com/c/wikichal …

[7] http://webscope.sandbox.yahoo.co …

[8] http: //americannationalcorpus.or …

[9] http://kddcup.yahoo.com/datasets …

[10] http://horatio.cs.nyu.edu/mit/ti …

[11] https://proteomecommons.org/data …

[12] http://redd.csail.mit.edu/

[13] http://www.1000genomes.org/ftpse …

[14] https://www.idiap.ch/dataset/mobio

[15] http://www-nlp.stanford.edu/pubs …

[16] http://stat-computing.org/dataex …

[17] http://blog.archive.org/2012/10/ …

[18] http://www.image-net.org/index

[19] http://cnets.indiana.edu/groups/ …

[20] wiki-links – Datos de enlaces de Wikipedia – Google Project Hosting

[21] El conjunto de datos ClueWeb12

[22] ClueWeb12 Datos relacionados:

Anton Tarasenko

Hice una publicación en el blog sobre datos abiertos hace mucho tiempo ( http://bret.appspot.com/entry/we …), y ReadWriteWeb hizo un buen resumen basado en todos los comentarios de la publicación del blog: http: // www .readwriteweb.com / arch …

Desde esa publicación, ha habido muchos más comentarios en el blog (105 y contando), por lo que es posible que desee combinar los comentarios de cualquiera de las publicaciones de RWW perdidas.

Nitin Madnani

Proyecto 1000Genomes: http://www.1000genomes.org/data#…
Datos de la base de datos de películas de Internet: http://www.imdb.com/interfaces
Raspados de feeds de Twitter (producto) (algunos son gratuitos): http://blog.infochimps.com/2008/… (gracias al Usuario de Quora)
¿Cuáles son algunos conjuntos de datos públicos gratuitos?
¿Qué API de datos o fuentes deberían estar en mi guía O’Reilly?
http://news.ycombinator.com/item …
¿Hay conjuntos de datos grandes y gratuitos en el formato de un registro de acceso de Apache?
30 TB de datos de rastreo web: http://www.commoncrawl.org/data/
Base de datos de imágenes: http://sipi.usc.edu/database/dat …
http://warsteiner.db.cs.cmu.edu/ …
Conjuntos de datos lanzados por Google

Eliot Jarrett

Grandes conjuntos de datos principalmente de finanzas y economía que también podrían aplicarse en campos relacionados que estudian la condición humana:

Datos del Banco Mundial. Muchos años Muchos países Países | Datos. Muchas variables de datos (Temas | Datos – Indicadores | Datos – Catálogo), años y países.

Su ventana a las estadísticas federales de EE. UU.

FRB: Lanzamientos de datos

Datos económicos de la Reserva Federal

A nuestro gobierno también le gusta mantenerse informado a nivel mundial y está dispuesto a compartir algunos de esos datos: CIA -The World Factbook

Informes sobre desarrollo humano – Programa de las Naciones Unidas para el Desarrollo – Public Data Explorer

Índice de precios al consumidor

Revelando la belleza de las estadísticas para una visión del mundo basada en hechos. – ( http://www.gapminder.org/ )

Trazador de datos

Posiblemente mirando el Informe de Capital Humano 2015 tiene clasificaciones del índice de capital humano tiene varias medidas de educación y capacidades de productividad.

El comercio internacional

Estadísticas históricas internacionales (por Brian Mitchell)

Datos: Comercio agregado (valor actual), comercio bilateral con los principales socios comerciales (valor actual), y principales exportaciones de productos básicos por parte de los principales países exportadores. No hay datos disponibles sobre el comercio como participación del PIB.

Cobertura geográfica: países de todo el mundo

Intervalo de tiempo: series de tiempo largas con observaciones anuales, desde el siglo XIX hasta hoy (2010)

Disponible en: Los libros se publican en tres volúmenes que cubren más de 5000 páginas. 11 En algunas universidades puede acceder a la versión en línea de los libros donde las tablas de datos se pueden descargar como archivos ePDF y Excel. El acceso en línea no está aquí.

Los datos del siglo XIX en adelante para países de todo el mundo están disponibles en las Estadísticas históricas internacionales (IHS). Estas estadísticas, originalmente publicadas bajo el liderazgo editorial de Brian Mitchell (desde 1983), son una colección de conjuntos de datos tomados de muchas fuentes primarias, incluidos resúmenes oficiales nacionales e internacionales.

Penn World Tables

Datos: PIB real y ajustado por PPA en millones de dólares estadounidenses, cuentas nacionales (consumo de los hogares, inversión, consumo del gobierno, exportaciones e importaciones), tasas de cambio y cifras de población.

Cobertura geográfica: países de todo el mundo

Intervalo de tiempo: de 1950 a 2011 (versión 8.1)

Disponible en: en línea aquí

Feenstra, Robert C., Robert Inklaar y Marcel P. Timmer (2015), “The Next Generation of the Penn World Table”, próxima publicación American Economic Review, disponible para descargar en http://www.ggdc.net/pwt

Correlatos del comercio bilateral de guerra

Datos: Total de comercio nacional y flujos comerciales bilaterales entre estados. Importaciones y exportaciones totales de cada país en millones de dólares actuales y flujos bilaterales en millones de dólares actuales

Cobertura geográfica: países individuales alrededor del mundo

Intervalo de tiempo: de 1870 a 2009

Disponible en: en línea en http://www.correlatesofwar.org

Este conjunto de datos está alojado por Katherine Barbieri, Universidad de Carolina del Sur, y Omar Keshk, Universidad Estatal de Ohio.

Banco Mundial – Indicadores del desarrollo mundial

Datos: Comercio (% del PIB) y muchas series más específicas: comercio de mercancías, comercio de servicios, comercio de alta tecnología, comercio de bienes TIC, comercio de servicios TIC: siempre exporta e importa por separado. También exportar e importar el índice de valor y el índice de volumen.

Cobertura geográfica: países y regiones del mundo

Plazo: anual desde 1960

Disponible en: en línea en http://data.worldbank.org

Comtrade de la ONU

Datos: flujos comerciales bilaterales por producto

Cobertura geográfica: países de todo el mundo

Periodo de tiempo: 1962-2013

Disponible en: en línea aquí

UNCTADstat

Datos: muchas medidas diferentes, incluido el comercio por volúmenes y valor

Cobertura geográfica: países de todo el mundo

Periodo de tiempo: para algunas series, los datos están disponibles desde 1948, principalmente anuales, a veces trimestrales.

Disponible en: en línea aquí

Eurostat – COMEXT

Datos: flujos comerciales (también por productos)

Cobertura geográfica: Europa (UE y AELC)

Intervalo de tiempo: principalmente desde 1988

Disponible en: en línea aquí

Además, el sitio web de Eurostat ‘Estadísticas explicadas’ publica información estadística actualizada sobre el comercio internacional de bienes y servicios .

Organización Mundial del Comercio – OMC

Datos: muchas series sobre aranceles y flujos comerciales

Cobertura geográfica: países de todo el mundo

Intervalo de tiempo: desde 1948 para algunas series

Disponible en: en línea aquí

Base de datos CEPII sobre la economía mundial

Datos: muchos conjuntos de datos diferentes relacionados con el comercio internacional, incluidos los flujos comerciales por variables geográficas de productos básicos y variables para estimar modelos de gravedad

Cobertura geográfica: países de todo el mundo

Intervalo de tiempo: algunas series se remontan a la década de 1990.

Disponible en: en línea aquí

NBER-Datos comerciales de las Naciones Unidas, 1962-2000

Datos: Exportar e importar valores y volúmenes por producto

Cobertura geográfica: países individuales

Lapso de tiempo: 1962-2000

Disponible en: en línea aquí

Estos datos también están disponibles en el Centro de Datos Internacionales .

Conjuntos de datos comerciales históricos más pequeños

David S. Jacks recopiló datos sobre el comercio bilateral del Reino Unido para el período 1870-1913. Se puede descargar en formato Excel aquí.

Para el período 1870-1913 , se pueden encontrar 21,000 observaciones comerciales bilaterales en Mitchener y Weidenmier (2008) – Comercio e imperio, disponibles en el Economic Journal aquí.

Los datos sobre el Reino Unido, Alemania, Francia y EE. UU. Entre mediados del siglo XIX y XX se pueden encontrar aquí.

Los datos sobre la exportación de los países en desarrollo – en 1840, 1860, 1880 y 1900 – por John Hanson están disponibles aquí.

Los datos sobre el comercio entre Inglaterra y África durante el período 1699-1808 están disponibles en el archivo de datos holandés y los servicios en red. Fue compilado por Marion Johnson.

Aplicando estas mismas fuentes a la calidad de la educación en los países en desarrollo:

El índice de educación de múltiples hojas de datos de Excel está disponible en Informes de Desarrollo Humano o puede usar su herramienta para explorar los datos Informe de Desarrollo Humano también tiene acceso a Google para explorar los datos. : Índice de desarrollo humano e índice de alfabetización de adultos y tasa bruta de matrícula
El Banco Mundial tiene tasas de alfabetización Tasa de alfabetización de adultos, población mayor de 15 años, ambos sexos (%) además de muchos otros datos: datos del Banco Mundial. Muchos años Muchos países | Datos. Muchas variables de datos Temas | Datos – Indicadores | Datos – Catálogo | El Banco Mundial.
A nuestro gobierno también le gusta mantenerse informado y está dispuesto a compartir algunos de esos datos: CIA -The World Factbook
Posiblemente mirando el Informe de Capital Humano 2015 tiene clasificaciones del índice de capital humano tiene varias medidas de educación y capacidades de productividad.
Revelando la belleza de las estadísticas para una visión del mundo basada en hechos. – ( http://www.gapminder.org/ )
Trazador de datos: tiene puntajes promedio de prueba
Penn World Tables – Datos: PIB real y ajustado por PPA en millones de dólares estadounidenses, cuentas nacionales (consumo familiar, inversión, consumo gubernamental, exportaciones e importaciones), tasas de cambio y cifras de población. Feenstra, Robert C., Robert Inklaar y Marcel P. Timmer (2015), “The Next Generation of the Penn World Table”, próxima publicación American Economic Review, disponible para descargar en http://www.ggdc.net/pwt

Mark Meloon

Dado que nuestros usuarios orientados al aprendizaje automático nos hacen esta pregunta con mucha frecuencia, mi empresa (BigML) ha compilado una lista con más de 250 fuentes aquí:
Lista de fuentes de datos públicas aptas para el aprendizaje automático

También puede consultar la publicación de blog relacionada para obtener más contexto:
Datos, datos, datos: miles de fuentes de datos públicas

Sandeep Vasani

Base de datos estadísticos de Suecia

¿Qué es la base de datos estadística?

Desde enero de 1997, Statistics Sweden tiene bases de datos disponibles en Internet. El objetivo es proporcionar un mayor acceso a las estadísticas y permitir a los usuarios descargar fácilmente información a sus propias computadoras.
Base de datos estadísticos
Contenido y busqueda
La base de datos estadísticos contiene una gran cantidad de estadísticas oficiales de las que es responsable Statistics Sweden. También se incluyen estadísticas oficiales de otras autoridades estadísticas. La base de datos contiene varias tablas donde la información seleccionada se puede presentar en la pantalla, en forma impresa o transmitida a la computadora del usuario para su posterior procesamiento.
El proceso de búsqueda se puede realizar de tres maneras:

a través del enlace “NYA SIFFROR – Välj från senast uppdaterade tabeller” (solo en la versión sueca del sitio web). “Nya siffror” muestra las últimas tablas actualizadas en la base de datos estadística.
a través de las áreas temáticas
o mediante Buscar en la base de datos estadística.

La base de datos estadísticos está disponible de forma gratuita. Al realizar recuperaciones menores de menos de 10000 celdas de tabla, el registro no es necesario. Para recuperaciones más grandes y algunos servicios complementarios futuros, el registro se realiza completando el formulario de registro .
Grandes archivos estadísticos (PC-Axis) (solo en la versión sueca del sitio web)
La capacidad de la base de datos es limitada cuando se trata de grandes recuperaciones. Para servir mejor a los usuarios de recuperaciones muy grandes, se han creado archivos de estadísticas listos para usar en formato PC-Axis, principalmente para material distribuido regionalmente.
PC-Axis
PC-Axis es un software que maneja tablas estadísticas muy grandes. PC-Axis se puede usar para procesar archivos de estadísticas ya preparados o archivos de PC-Axis desde la base de datos. El programa también puede pasar las estadísticas a otros programas, como hojas de cálculo, etc. PC-Axis se puede descargar de forma gratuita desde este sitio web.
Servicios relacionados con las bases de datos estadísticas.
Recuperaciones de bases de datos a medida en CD-ROM o disquete
Se pueden solicitar recuperaciones a medida para entregar en disquete o CD-ROM. El precio depende del costo de producción.
Micro bases de datos
Las micro bases de datos están disponibles después de una prueba de daños de datos anonimizados (anonimizados) en Statistics Sweden. Hay más información disponible sobre registros en Documentación de estadísticas (solo en la versión sueca del sitio web).
Cursos
Los cursos se llevan a cabo regularmente (en sueco) como una ayuda para aquellos que desean utilizar la base de datos estadística. Para obtener más información sobre los contenidos, horarios y precios de los cursos, consulte la versión sueca del sitio web Kurser .
Para obtener más información, comuníquese con los servicios de información de Statistics Sweden
Dirección postal: Box 24300, SE-10451 Estocolmo, Suecia.
Telefax: + 46-8-506 948 99
Teléfono: + 46-8-506 948 01

¿Qué es la base de datos estadística?

a través del enlace “NYA SIFFROR – Välj från senast uppdaterade tabeller” (solo en la versión sueca del sitio web). “Nya siffror” muestra las últimas tablas actualizadas en la base de datos estadística.
a través de las áreas temáticas
o mediante Buscar en la base de datos estadística.

Shimonee Shah

Gañido proporciona datos y reseñas de las 250 empresas más cercanas de 30 universidades para que estudiantes y académicos exploren e investiguen. Descargué el conjunto de datos académicos de Yelp a principios de 2015 y contenía un total de 330.071 opiniones proporcionadas por 130.873 usuarios a 13.481 empresas.

El conjunto de datos es un único archivo comprimido con gzip, compuesto por un objeto json por línea. Cada objeto contiene un campo ‘tipo’, que le indica si es una empresa, un usuario o una revisión.

Los objetos comerciales contienen información básica sobre negocios locales.

{
‘type’: ‘business’,
‘business_id’: (un identificador único para este negocio),
‘nombre’: (el nombre comercial completo),
‘vecindades’: (una lista de nombres de vecindad, puede estar vacía),
‘full_address’: (dirección localizada),
‘ciudad’: (ciudad),
‘estado’: (estado),
‘latitud’: (latitud),
‘longitud’: (longitud),
‘estrellas’: (clasificación de estrellas, redondeada a medias estrellas),
‘review_count’: (recuento de revisión),
‘photo_url’: (URL de la foto),
‘categorías’: [(nombres de categoría localizados)]
‘open’: (¿el negocio sigue abierto para el negocio?),
‘escuelas’: (universidades cercanas),
‘url’: (url de yelp)
}

Los objetos de revisión contienen el texto de revisión, la calificación de estrellas e información sobre los votos que los usuarios de Yelp han emitido en la revisión.

{
‘type’: ‘review’,
‘business_id’: (el identificador de la empresa revisada),
‘user_id’: (el identificador del usuario autor)
‘estrellas’: (clasificación de estrellas, número entero 1-5),
‘texto’: (texto de revisión),
‘date’: (fecha, formateada como ‘2011-04-19’),
‘votos’: {
‘útil’: (recuento de votos útiles),
‘gracioso’: (recuento de votos graciosos),
‘cool’: (recuento de votos geniales)
}
}

Los objetos de usuario contienen información agregada sobre un solo usuario en todo Yelp (incluidas las empresas y las revisiones que no están en el conjunto de datos).

{
‘type’: ‘usuario’,
‘user_id’: (identificador único de usuario),
‘nombre’: (nombre, última inicial, como ‘Matt J.’),
‘review_count’: (recuento de revisión),
‘average_stars’: (promedio de coma flotante, como 4.31),
‘votos’: {
‘útil’: (recuento de votos útiles en todas las revisiones),
‘gracioso’: (recuento de votos graciosos en todas las reseñas),
‘cool’: (recuento de votos geniales en todas las reseñas)
}
}

Yelp también tiene un Desafío de conjuntos de datos de Yelp donde se otorgan más de $ 35,000 en premios en efectivo.

Para el desafío del conjunto de datos, Yelp proporciona un conjunto de datos más grande que el conjunto de datos académicos mencionado anteriormente. En la actualidad (cuando se escribe esta respuesta), el conjunto de datos de desafío incluye información sobre empresas locales en 10 ciudades de 4 países.

El conjunto de datos de desafío contiene:

1.6M opiniones y 500K consejos por 366K usuarios para 61K empresas
481K atributos comerciales, por ejemplo, horas, disponibilidad de estacionamiento, ambiente.
Red social de 366K usuarios para un total de 2.9M de bordes sociales.
Check-ins agregados a lo largo del tiempo para cada una de las 61K empresas

Bret Taylor

Búsqueda personalizada de Google

Puede usar la Búsqueda personalizada de Google para conjuntos de datos:

Búsqueda personalizada de Google: conjuntos de datos

230 fuentes y meta-fuentes de conjuntos de datos, incluidos todos los mencionados en esta pregunta. Siéntase libre de excluir .gov y cualquier otro sitio web de los resultados agregando “-.gov” o “-site.com” a la línea de búsqueda. Otros operadores de búsqueda de Google funcionan.

No dude en ponerse en contacto conmigo si tiene ideas sobre qué sitios web agregar.

IOGDS

El siguiente servicio pone en orden más de 1,000,000 de conjuntos de datos públicos:

IOGDS: Búsqueda internacional de conjuntos de datos de gobierno abierto

Abdelbarre Chafik

He encontrado que Kaggle.com es un recurso fantástico, ya que los conjuntos de datos se relacionan con problemas comerciales específicos y son proporcionados por las compañías respectivas.

Kaggle realiza concursos para desarrollar los mejores modelos predictivos basados en conjuntos de datos de origen. Las competiciones actuales son:
1. Mejore la calificación crediticia al predecir la probabilidad de que alguien experimente dificultades financieras en dos años
2. Predecir si un auto comprado en una subasta es una “mala compra”
3. Identifique a los pacientes que serán ingresados en un hospital dentro del próximo año, utilizando datos de reclamos históricos

Se otorgan premios a los mejores modelos predictivos, desde $ 5,000 a $ 3 millones (para la competencia de seguros de salud).

Puede usar los conjuntos de datos de forma gratuita después de registrarse como competidor, aunque hay problemas legales relacionados con la propiedad de modelos predictivos que deben considerarse.

Mark Meloon

Replanteando la respuesta de Alan Morrison a ¿Dónde en la web puedo encontrar muestras gratuitas de conjuntos de Big Data, por ejemplo, de países, ciudades o individuos, para analizar?

Esta lista de enlaces, disponible en Github, es bastante larga y completa: caesar0301 / awesome-public-datasets Verá muchas fuentes de datos del censo. Entonces, el desafío es cómo llegar a lo que realmente quieres y puedes usar.

Tenga en cuenta que esta lista también hace referencia a una respuesta de Quora que también incluye una larga lista: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Para su comodidad, he copiado la lista de listas tal como estaba en enero de 2015 aquí, pero no la actualizaré:

Impresionantes conjuntos de datos públicos

Esta lista de fuentes de datos públicos se recopila y ordena a partir de blogs, respuestas y respuestas de los usuarios. La mayoría de los conjuntos de datos enumerados a continuación son gratuitos, sin embargo, algunos no lo son. Otras listas asombrosamente impresionantes se pueden encontrar en theawesome-awesomeness y otra impresionante lista.

Agricultura

Base de datos PLANTS del Departamento de Agricultura de EE. UU.

Biología

1000 genomas

Investigación colaborativa en neurociencia computacional (CRCNS)

Omnibus de expresión génica (GEO)

Proyecto de microbioma humano (HMP)

ICOS PSP Benchmark

Datos de genómica del cáncer del MIT

Datos de microarrays NIH (FTP)

Banco de datos de proteínas

Proyecto PubChem

PubGene (ahora Coremine Medical)

Stanford Microarray Data

El Proyecto Genoma Personal o PGP

Datos públicos de UCSC

UniGene

Clima

Clima australiano

Centro Meteorológico de Canadá

Datos climáticos de la UEA (actualizados mensualmente)

Datos climáticos mundiales desde 1929

NOAA Clima del Mar de Bering

Conjuntos de datos climáticos de NOAA

Modelos meteorológicos en tiempo real de NOAA

WU El tiempo histórico en todo el mundo

Redes complejas

CrossRef DOI URLs

Conjunto de datos de citas DBLP

NBER Citaciones de patentes

Recopilación de datos de redes complejas NIST

Red de interacción proteína-proteína

Red de dependencia de PyPI y Maven

Base de datos de citas de Scopus

Stanford GraphBase (Steven Skiena)

Colección de conjunto de datos de red grande de Stanford

La colección de la red Koblenz

El Laboratorio de Algoritmos Web (UNIMI)

Depósito de datos de red UCI

Colección de matriz dispersa de UFL

WSU Graph Database

Red de computadoras

Páginas web 3.5B de CommonCraw 2012

53.5B clics web de 100K usuarios en Indiana Univ.

Conjuntos de datos de Internet de CAIDA

ClueWeb09 – páginas web 1B

ClueWeb12 – 733M páginas web

Datos web de CommonCrawl durante 7 años

CRAWDAD Conjuntos de datos inalámbricos de Dartmouth Univ.

Datos móviles abiertos por MobiPerf

Telescopio de red UCSD, red IPv4 / 8

Desafíos de datos

Desafíos en el aprendizaje automático

DrivenData Competiciones por el bien social

ICWSM Data Challenge (desde 2009)

Datos de competencia de Kaggle

Copa KDD de Tencent 2012

Desafío de visualización de datos de Localytics

Premio Netflix

Desafío del conjunto de datos de Yelp

Ciencias económicas

American Economic Ass (AEA)

EconData de UMD

Base de datos de código de producto de Internet

Energía

AMPds

AZUL

CARDADO

Puerto de datos

ECO

EIA

HFED

iAWE

Tartán

REDD

UK-Dale

Financiar

CBOE Futures Exchange

Google Finance

Tendencias de Google

NASDAQ

OANDA

Datos financieros de la OSU

Quandl

St Louis Federal

Yahoo Finanzas

GeoSpace / GIS

BODC – datos marinos de ~ 22K vars

EOSDIS – Datos del sistema de observación de la Tierra de la NASA

Datos de ubicación global fácticos

Base de datos de áreas administrativas globales (GADM)

Datos geoespaciales de ASU

GeoNames en todo el mundo

Tierra natural – vectores y rasters del mundo

Open Street Map (OSM)

TIGRE / Línea – Límites y carreteras de EE. UU.

TwoFishes – Geocodificador grueso de Foursquare

TZ Timezones shapfiles

Gobierno

Australia (abs.gov.au)

Australia (data.gov.au)

Canadá

Chicago

EuroStat

FedStats

Alemania

Glasgow, Escocia, Reino Unido

Guardian gobiernos mundiales

Almacén de datos de Londres, Reino Unido

MassGIS, Massachusetts, EE. UU.

Países Bajos

Nueva Zelanda

Betanyc de Nueva York

NYC Open Data

OCDE

Plataforma de datos de gobierno abierto (DAG) India

Conjuntos de datos de San Francisco

Sudáfrica

El Banco Mundial

Datos del gobierno del Reino Unido

Encuesta de la comunidad estadounidense de EE. UU.

Conjuntos de datos de salud pública de los CDC de EE. UU.

Oficina del Censo de EE.UU

Departamento de Vivienda y Desarrollo Urbano de los Estados Unidos (HUD)

Agencias del gobierno federal de EE. UU.

Catálogo de datos del gobierno federal de EE. UU.

Administración de Drogas y Alimentos de los Estados Unidos (FDA)

Gobierno Abierto de EE. UU.

Censo 2011 del Reino Unido Open Atlas Project

Naciones Unidas

Cuidado de la salud

EHDP grandes conjuntos de datos de salud

Gapminder World, bases de datos demográficas

Base de datos de cobertura de Medicare (MCD), EE. UU.

Motor de datos de Medicare de datos de medicare.gov

Archivo de datos de Medicare

Procesamiento de imágenes

2GB de fotos de gatos

Benchmark de reconocimiento facial

ImageNet: una base de datos de imágenes en la jerarquía de WordNet

Aprendizaje automático

Delve Datasets para clasificación y regresión (Univ. De Toronto)

Datos mensuales de Discogs

Subastas en línea de eBay (2012)

Base de datos de IMDb

Depósito de quillas para clasificación, regresión y series de tiempo

Datos de préstamos del Club de préstamos

Repositorio de conjunto de datos de aprendizaje automático

Conjunto de datos de millones de canciones

Más conjuntos de datos de canciones

Conjuntos de datos de MovieLens

RDataMining – Datos del libro electrónico “R and Data Mining”

Meteoritos Registrados en la Tierra

Datos de puntuación de salud de restaurantes en San Francisco

Depósito de aprendizaje automático de UCI

Yahoo! Calificaciones y datos de clasificación

Museos

Base de datos de la colección de Cooper-Hewitt

Metadatos del Instituto de Artes de Minneapolis

Tada Collection metadata

Los vocabularios de Getty

Lenguaje natural

ClueWeb09 FACC

ClueWeb12 FACC

DBpedia – 4.58 millones de cosas con 583 millones de datos

Flickr Taxonomías personales

Google Books Ngrams (2.2TB)

Google Web 5gram (1TB, 2006)

Lista de libros electrónicos de Gutenberg

Hansards fragmentos de texto del Parlamento canadiense

Traducción automática de lenguas europeas

Colección de spam de SMS en inglés

Corpus de publicaciones de USENET de 2005 ~ 2011

Wikidata – bases de datos de Wikipedia

Datos de enlaces de Wikipedia: 40 millones de entidades en contexto

Bases de datos y herramientas de WordNet

Física

Portal de datos abiertos del CERN

Datos de NSSDC (NASA) de 550 naves espaciales

Dominios Publicos

Amazonas

Conjuntos de datos de Archive.org

Archivo de datos CMU JASA

Colecciones de CMU StatLab

Data360

Datamob.org

Google

Infochimps

Colecciones de datos de KDNuggets

Numbray

Conjuntos de datos de Reddit

Colección RevolutionAnalytics

Conjuntos de datos de muestra R

Conjuntos de datos Stats4Stem R

StatSci.org

La lista de correos de Washington

Recolección de datos de UCLA SOCR

Informes de ovnis

Interceptor de buscapersonas Wikileaks 911

Yahoo Webscope

Los motores de búsqueda

Torrents académicos de intercambio de datos desde UMB

Archivarlo desde Internet Archive

Datahub.io

DataMarket (Qlik)

Freebase.com de personas, lugares y cosas

Harvard Dataverse Network de datos científicos

ICPSR (UMICH)

Statista.com – estadísticas y estudios

Ciencias Sociales

Ancestry.com Forum Dataset más de 10 años

CMU Enron Correo electrónico de 150 usuarios

Raspado de datos de Facebook (2005)

Redes sociales de Facebook de LAW (desde 2007)

Red Social Cuadrangular en 2010, 2011

Cuadrangular de UMN / Sarwat (2013)

Encuesta social general (GSS) desde 1972

GetGlue: los usuarios califican los programas de TV

Archivo de colaboración de GitHub

Redes sociales móviles de UMASS

Proyecto de encuesta por Internet PewResearch

Datos de investigación de SourceForge.net

StackExchange Data Explorer

Conjunto de datos de supervivencia titánica

Gráfico de Twitter de todo el sitio de Twitter

Archivo de datos de ciencias sociales de la UCB (D-Lab)

Archivo de datos de ciencias sociales de UCLA

Conjuntos de datos de redes sociales UNIMI / LAW

Universidades de todo el mundo

UPJOHN para Investigación Laboral Laboral

Yahoo! Gráfica y datos sociales

Youtube Video Social Graph en 2007,2008

Deportes

Datos de intercambio histórico de Betfair

Partidos de cricsheet (béisbol)

Ergast Formula 1, desde 1950 hasta la fecha (API)

Recursos de fútbol / fútbol (datos y API)

Base de datos de béisbol de Lahman

Retrosheet Estadísticas de Béisbol

Series de tiempo

Biblioteca de datos de series temporales (TSDL) de MU

Conjunto de datos de la serie temporal de UC Riverside

Transporte

Datos OD de aerolíneas 1987-2008

Colección Bike Share Systems (BSS)

Hubway Million Rides en MA

Tráfico marítimo: rutas de barcos, escala de puertos y más

Datos del viaje en taxi de Nueva York 2013 (FOIA / FOILed)

OpenFlights – aeropuerto, aerolínea y datos de ruta

Datos de rendimiento a tiempo de la aerolínea RITA

Recopilación de datos de transporte RITA / BTS (TranStat)

Transporte para Londres (TFL)

Encuesta de seguimiento de viajes (TTS) para Chicago

Oficina de Estadísticas de Transporte de EE. UU. (BTS)

Vuelos nacionales de EE. UU. 1990 a 2009

Marco de análisis de carga de EE. UU. Desde 2007

Colecciones complementarias

DataWrangling: algunos conjuntos de datos disponibles en la web

Inside-r: encontrar datos en Internet

Quora: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

como ser golpeado en el cerebro !: Más de 100 conjuntos de datos interesantes para estadísticas

StaTrek: aprovechando los datos abiertos para comprender la vida urbana ”

Fuente: Github de Xiaming caesar0301 / awesome-public-datasets, enero de 2015. Vaya a Github para ver esta y otras listas actualizadas.

Atakan Cetinsoy

20 grupos de noticias: tarea de clasificación, asignación de ocurrencias de palabras al ID del grupo de noticias (Página de inicio para 20 grupos de datos de grupos de noticias)
Reuters (RCV *) Corpuses: predicción de texto / tema (Página en reuters.com)
Penn Treebank: se usa para la predicción de la siguiente palabra o la predicción del siguiente carácter (Penn Treebank Project)
Broadcast News: conjunto de datos de texto grande, utilizado de forma clásica para la predicción de la siguiente palabra (1996 English Broadcast News Speech (HUB4))
Conjunto de datos de Wikipedia
Conjunto de datos de análisis de sentimiento multidominio: Conjunto de datos de sentimiento multidominio

Sistemas de recomendación

MovieLens: dos conjuntos de datos disponibles de GroupLens. El primer conjunto de datos tiene 100.000 clasificaciones para 1682 películas de 943 usuarios, subdividido en cinco subconjuntos disjuntos. El segundo conjunto de datos tiene alrededor de 1 millón de calificaciones para 3900 películas por 6040 usuarios.
Jester: este conjunto de datos contiene 4.1 millones de clasificaciones continuas (-10.00 a +10.00) de 100 chistes de 73,421 usuarios.
Premio Netflix: Netflix lanzó una versión anónima de su conjunto de datos de clasificación de películas; consta de 100 millones de calificaciones, realizadas por 480,000 usuarios que han calificado entre 1 y todas las 17,770 películas.
Conjunto de datos de Book-Crossing: este conjunto de datos es de la comunidad de Book-Crossing y contiene 278,858 usuarios que proporcionan 1,149,780 clasificaciones sobre 271,379 libros.

Udit Saini

Aquí hay una lista de conjuntos de datos abiertos

Data.gov (EE. UU.),
El Banco de datos del Banco Mundial
http://www.reddit.com/r/datasets
Un catálogo profundo de variación genética humana ( tamaño: 396.7 TB)
Ciudad de Chicago | Portal de datos ( tamaño: 9.5GB)
Tamaño de Google Ngram Viewer : 863.4GB
Gobierno Abierto (Canadá)
Educación – Data.gov (Educación)
Escuela de Ciencias Geográficas y Planificación Urbana Geo-data

Espero que sea útil

Bret Taylor

He estado recopilando este conjunto de datos proporcionado por UIDAI,
Adhar (UIDAI) una información maravillosa proporcionada por el gobierno indio.
Cosas que me gustan de este conjunto de datos:

Gran manera para que los principiantes como yo exploren los conceptos básicos de Data Science utilizando las últimas herramientas como ipython, Pandas, Anaconda, etc.
Este conjunto de datos está siendo utilizado por los cursos UDACITY (Introducción a la ciencia de datos) ver referencias para videos
Es un dato en tiempo real, se actualiza cada dos días.
Puede usar las llamadas API REST para obtener los datos de un día en particular, un mes en particular O solo los últimos datos.
Probablemente sea un gran dato de datos de la población de la India. Para obtener más información sobre la descarga, consulte:

http: //bhardwajgaurav.wordpress… .

Abdelbarre Chafik

Aquí hay algunos grandes corpus que usamos en PNL además de los ya mencionados:

ukWaC: un corpus de 2 mil millones de palabras construido a partir de la Web que limita el rastreo al dominio .uk y utiliza palabras de frecuencia media del BNC como semillas. El corpus fue etiquetado en POS y lematizado con el TreeTagger. También hay una versión analizada llamada pukWac. Obtenga ambos en: http://wacky.sslmit.unibo.it/dok …
WaCkypedia: un volcado de 2009 de la Wikipedia en inglés (alrededor de 800 millones de tokens), que incluye parte de la información del habla / lema, así como un análisis sintáctico completo. Los textos se extrajeron del vertedero y se limpiaron con el extractor de Wikipedia. Consíguelo en la misma URL que ukWac: http://wacky.sslmit.unibo.it/dok …
Cuerpo de USENET: una colección de publicaciones públicas de USENET. Este corpus se recopiló entre octubre de 2005 y enero de 2011, y abarca 47860 grupos de noticias de archivos no binarios en inglés. Consíguelo en: http://www.psych.ualberta.ca/~we … [CAVEAT: ¡es enorme!]
La recopilación de datos que viene con el Kit de herramientas de lenguaje natural (NLTK). Probablemente no sea tan grande como los demás, pero es un buen conjunto. Consulte las descripciones en: http://nltk.googlecode.com/svn/t …
Europarl: Actas del Parlamento Europeo en 13 idiomas. Limpiado y preprocesado para la investigación de traducción automática. Consíguelo en: http://www.statmt.org/europarl [FYI, NLTK tiene una interfaz incorporada para acceder a este corpus.]
El corpus de Google Books Ngram: bastante grande. Consíguelo en: http://books.google.com/ngrams/d …

Sandeep Vasani

La curva de evolución se está moviendo del apoyo a la toma de decisiones a ser cada vez más operativo, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. Aplique análisis efectivos y modelos comerciales sofisticados en grandes volúmenes de datos. Haga clic aquí. BI entró en escena hace quince años y TI poseía estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI.

Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando.

un proveedor de servicios de análisis y ciencia de decisiones dice que “los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

Con la llegada de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un entorno de toma de decisiones agradable. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica predictiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es curioso, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

Abdelbarre Chafik

Aquí hay un enlace útil.
Encontrar datos en Internet

Encontrar datos en InternetBy RevoJoe
el 6 de octubre de 2011

La siguiente lista de fuentes de datos ha sido modificada a partir del 19/08/13. La mayoría de los conjuntos de datos enumerados a continuación son gratuitos, sin embargo, algunos no lo son.

Si aparece una (R) después de la fuente, esto significa que los datos ya están en formato R o existen comandos R para importar directamente los datos de R. (Vea ejemplos :: introducción para algún código). De lo contrario, he limitado la lista a datos fuentes para las cuales existe un proceso razonablemente simple para importar archivos csv. Lo que sigue es una lista de fuentes de datos organizadas en categorías que no son mutuamente excluyentes pero que reflejan lo que existe.

Ciencias económicas

American Economic Ass. (AEA): AEAweb: RFE
UMD :: Inforum – EconData
Banco mundial: Indicadores | Datos

Financiar

CBOE Futures Exchange: CFE | Datos del mercado
Google Finance: cotizaciones bursátiles, noticias, conversiones de divisas y más (R)
Tendencias de Google: Tendencias de Google – Interés de búsqueda web – En todo el mundo, 2004 – presente
Fed de San Luis: Datos económicos de la Reserva Federal (R)
NASDAQ: NASDAQ – Almacén de datos
OANDA: Forex Trading | Comercio de divisas en línea | Broker de Forex | OANDA (R)
Quandl: Buscar, usar y compartir datos numéricos
Yahoo Finance: Yahoo Finance – Finanzas empresariales, Mercado de valores, Cotizaciones, Noticias (R)

Gobierno

Estadísticas archivadas del gobierno nacional: servicios de archivo web para bibliotecas y archivos
Australia: 3301.0 – Nacimientos, Australia, 2009
Canadá: Inicio | data.gc.ca
DataMarket: DataMarket – Buscar, comprender y compartir datos – DataMarket
Estadísticas de la Fed: FedStats: temas de la A a la Z
Gobiernos mundiales guardianes: página en guardian.co.uk
Datos de Londres, Reino Unido: Catálogo | London DataStore
Nueva Zelanda: http://www.stats.govt.nz/tools_and_services/tools/TableBuilder/tables-by …
Datos de Nueva York: Datos abiertos de Nueva York
OCDE: Página en oecd.org
RITA: RITA | BTS | Título de h2
Conjuntos de datos de San Francisco: datos | San Francisco
Datos del gobierno del Reino Unido: Búsqueda de datos | data.gov.uk
Naciones Unidas: UNdata
Agencias del Gobierno Federal de EE. UU .: Participación de la Agencia Federal – Data.gov
Conjuntos de datos de salud pública de los CDC de EE. UU .: archivos de datos de uso público y documentación
El Banco Mundial: Informe sobre el desarrollo mundial
Proyecto Atlas Abierto del Censo 2011 del Reino Unido: página en alex-singleton.com

Cuidado de la salud

Gapminder: datos

Aprendizaje automático

Datos de aerolíneas (2009 ASA Challenge): los datos. Data expo 09. ASA Statistics Computing and Graphics
Aeropuertos y sus ubicaciones: aeropuertos y sus ubicaciones
AppliedPredictiveModeling (paquete R): página en bit.ly
Clima australiano: observaciones meteorológicas diarias
Causality Workbench: Datos – Repositorio – Causality Workbench
Datos de borde para vuelos nacionales de EE. UU. 1990 a 2009: vuelos nacionales de EE. UU. De 1990 a 2009
GroupLens Research (clasificaciones de películas y más): conjuntos de datos
Datos de competencia de Kaggle: pase de Big Data a Big Analytics
Sitio de competencia de KDNuggets: conjuntos de datos para minería de datos y ciencia de datos
La Colección de la Red Koblenz: La Colección de la Red Koblenz
Repositorio de conjunto de datos de aprendizaje automático: mldata :: Bienvenido
Archivo de datos de Medicare: página en cms.gov
Microsoft Research: nuestra investigación – Microsoft Research
Millones de canciones: The Million Song Dataset: Giving Back to Music Research
RDataMining.com: R y Data Mining Datos de libros electrónicos R y Data Mining: Datos – RDataMining.com: R y Data Mining
La colección Revolution Analytics: índice de / conjuntos de datos /
Redes sociales: conjunto de datos del foro de Ancestry.com
Depósito de aprendizaje automático UCI: Depósito de aprendizaje automático UCI
53.500 millones de clics: Centro de investigación de redes y sistemas complejos

Colecciones de dominio público

Data360: Página de inicio de Data360
Página en datamob.org: Página en datamob.org
Hecho: Página en factual.com
Freebase: Freebase
Google: Google Public Data Explorer
infochimps: Big Data – Servicios en la nube
numbray: página en numbrary.com
Conjuntos de datos R de muestra: El paquete de conjuntos de datos R (R)
Datos de SourceForge Research: Datos
Informes de ovnis: Informes web del Centro nacional de informes ovni
Intercepta el buscapersonas Wikileaks 911: datos del localizador del 11 de septiembre
Recursos para estadísticas AP, introducción a estadísticas y R | STATS4STEM.ORG: conjuntos de datos R: conjuntos de datos estadísticos, conjuntos de datos estadísticos, conjuntos de datos para estadísticas, conjuntos de datos R (R)
The Washington Post List: Bases de datos de publicaciones (washingtonpost.com)

Ciencia

Experimentos agrícolas: agridat {agridat} (R)
Datos climáticos: datos de temperatura (HadCRUT4) yftp: //ftp.cmdl.noaa.gov/
Omnibus de expresión génica: Inicio – GEO – NCBI
Datos geoespaciales: datos | Centro GeoDa
Proyecto de microbioma humano: genomas de referencia microbianos
MIT Cancer Genomics Data: página en broadinstitute.org
NASA: Obteniendo datos del NSSDC
Datos de microarrays NIH: ftp://ftp.ncbi.nih.gov/pub/geo/D … (R)
Estructura proteica: referencia de PSP
Datos genéticos públicos: busque literatura o secuencia de vecinos
Datos de microarrays de Stanford: página en stanford.edu

Ciencias Sociales

Encuesta social general: Encuesta social general
ICPSR: Página en umich.edu
SNAP: Colección de conjunto de datos de red grande de Stanford
UCLA Social Sciences Archive: Portales de datos
UPJOHN INST: Centro de datos de investigación de empleo

Series de tiempo

Biblioteca de datos de series temporales: Biblioteca de datos de series temporales

Universidades

Correo electrónico de Enron de la Universidad Carnegie Mellon: conjunto de datos de correo electrónico de Enron
Carnegie Mellon University StatLab: StatLib — Archivo de conjuntos de datos
Archivo de datos JASA de la Universidad Carnegie Mellon: StatLib — Archivo de datos JASA
Ohio State University Datos financieros: Buscador de datos financieros
UC Berkeley: UC DATA: INICIO
UCLA: Datos SOCR – Socr
UC Riverside Time Series: Bienvenido a la página de clasificación / agrupación de series de tiempo de UCR
Universidad de Toronto: conjuntos de datos de Delve

Mark Meloon

Si está buscando datos de movilidad, existe el conjunto de datos de desafío Telecom Italia Bigdata. Puede encontrarlo aquí: Open Data Institute – nodo Trento

Son alrededor de 120 GB de datos y hay 7 tipologías diferentes de conjuntos de datos de la vida de la ciudad.

Otro conjunto de datos de tipo de datos de movilidad es el Data 4 Development lanzado por Orange, un operador francés. En 2013 lanzaron registros de descripción de llamadas sobre Costa de Marfil y en 2014 datos de CDR de Senegal.
Puede encontrar información sobre el desafío aquí: http://www.d4d.orange.com/en/home

Puede encontrar un nuevo desafío organizado por la Sociedad Americana de Estadística aquí: Apoye el desafío de datos en JSM 2015

Si desea más conjuntos de datos de cualquier tipo, desde datos de contaminación hasta datos de redes sociales, consulte esta publicación aquí: Conjuntos de datos de cualquier tipo: algunos enlaces. por Alket Cecaj sobre Algoritmos y Fusión de datos

La publicación se actualiza regularmente a medida que encuentro nuevos conjuntos de datos, como el conjunto de datos de los Papeles de Panamá.

Udit Saini

Enron Corpus es una gran base de datos de más de 600,000 correos electrónicos generados por 158 empleados de Enron Corporation. He utilizado Enron Email Corpus para entrenar y probar mi algoritmo de clasificación de correo electrónico.
https://www.cs.cmu.edu/~enron/

Enlace de descarga [tgz] https://www.cs.cmu.edu/~enron/en …

Jalem Raj Rohit

Torrents Académicos
Enlaces a conjuntos de datos gratuitos para aplicaciones de visión por computadora
Biblioteca de imágenes de objetos de Amsterdam
El CIFAR-10 y el CIFAR-100 son subconjuntos etiquetados del conjunto de datos de 80 millones de imágenes pequeñas.
Conjunto de datos de señales de tráfico
Aprendizaje automático y minería de datos: conjuntos de datos
Hilo Quora
DataMob
Algunos más compartidos en bitly
Grupo de aprendizaje automático de UCD
Algunos enlaces del directorio abierto
Un hilo sobre datos
Blog de Kevin
Conjuntos de datos públicos de recomendaciones y calificaciones
Otro hilo de Quora para los datos específicos de Kinnect
/ r / conjuntos de datos