¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

  • Una lista de diarios de datos (sin ningún orden en particular)
  • ¿Una base de datos de bases de datos abiertas? (también vea las preguntas más votadas en el intercambio de pila de datos abiertos en las preguntas más votadas)
  • http://www.reddit.com/r/datasets
  • https: //d396qusza40orc.cloudfron… (gran colección del curso de Análisis de datos de Coursera)
  • ¿Dónde es posible encontrar datos climáticos sin procesar? (también NCAR – Guía de datos climáticos)
  • El | Wiki de datos ecológicos
  • PhysioNet: el mayor repositorio de bases de datos gratuitas de acceso abierto y herramientas informáticas de código abierto dedicadas a la informática de señales complejas
  • Página en sdss.org – SDSS Astronomy datasets. Para más información sobre astronomía, vea ¿Cuáles son algunos conjuntos de datos de astronomía abiertos al público?
  • http://berkeleyearth.org/dataset… – Conjunto de datos de Berkeley Earth
  • http://static.reddit.com/RedditS… – encuesta masiva de Redditors y sus preferencias – ver http://blog.reddit.com/2011/09/w… para algunos análisis
  • Bienvenido al sitio web de intercambio de datos CRCNS – para neurociencia
  • http://archiveteam.org/index.php… – Archivos antiguos de sitios web que ya no existen. Incluye datos sobre las afinidades de más de 60,000 usuarios de Reddit
  • http://www.r-bloggers.com/datase… – Conjuntos de datos para practicar su minería de datos – discutido en http://www.reddit.com/r/MachineL…
  • http://www.ers.usda.gov/Data/ – Conjuntos de datos del Servicio de Investigación Económica del USDA
  • http://www.mortality.org/ – conjuntos de datos de mortalidad humana
  • http://www.fda.gov/Food/FoodSafe… – Conjuntos de datos de pesticidas de la FDA
  • http://www.ams.usda.gov/AMSv1.0/pdp: conjuntos de datos de pesticidas del USDA
  • Climatología: ¿Cuáles son algunas bases de datos meteorológicas históricas?
  • http://www.epa.gov/data/ – Datos de la EPA
  • http://data.giss.nasa.gov/ – Datos de NASA GISS
  • http://jimwatsonsequence.cshl.edu/ – Secuencia de ADN de James Watson
  • http: //evidence.personalgenomes…. – genomas públicos de personas inscritas en el proyecto de genoma personal – incluye genomas de Steven Pinker y Esther Dyson (persona de negocios). http: //evidence.personalgenomes…. por sus genomas
  • http://voteview.org/downloads.asp – Conjuntos de datos de votación del Congreso (probablemente contiene * todo * sobre lo que votó cualquier político)
  • http://www.norc.uchicago.edu/GSS… – Encuesta social general. Para ver un tutorial, consulte http: //blogs.discovermagazine.co…
  • http://www.cfa.harvard.edu/hitran/ – base de datos de absorción molecular de transmisión de alta resolución. HITRAN en la web: http://hitran.iao.ru/molecule
  • http://sarahsinbox.com/ – Correos electrónicos de Sarah Palin – analizados por Edwin Chen usando Asignación de Dirichlet Latente – ver http://blog.echen.me/2011/06/27/…

Algunos otros:

  • http://www.cdc.gov/nchs/nhanes/n… – Encuesta nacional de examen de salud y nutrición
  • http://www.nlsinfo.org/ordering/… – Datos de NSLY (sociología) [1]
  • http://road.hmdc.harvard.edu/ – conjuntos de datos electorales (aunque solo 1984-1990)

[1] Los datos de geocodificación NLSY79 solo pueden ponerse a disposición de los usuarios que hayan completado con éxito una solicitud de geocodificación y hayan firmado un acuerdo de confidencialidad con la Oficina de Estadísticas Laborales de EE. UU. Si está interesado en obtener acceso a los datos de Geocode NLSY79, revise la información en http://stats.bls.gov/nls/nlsgeo7….

Intentaré restringir mis respuestas a conjuntos de datos de más de 1 GB de tamaño, y ordenaré mis respuestas por el tamaño del conjunto de datos.

Más de 1 TB

  • El proyecto 1000 Genomes pone a disposición 260 TB de datos del genoma humano [13]
  • Internet Archive está haciendo un rastreo web de 80 TB disponible para investigación [17]
  • La conferencia TREC puso a disposición el conjunto de datos ClueWeb09 [3] hace unos años. Tendrá que firmar un acuerdo y pagar una tarifa no trivial (hasta $ 610) para cubrir la transferencia de datos de sneakernet. Los datos son aproximadamente 5 TB comprimidos.
  • ClueWeb12 [21] ya está disponible, al igual que las anotaciones de Freebase, FACC1 [22]
  • CNetS en la Universidad de Indiana pone a disposición un conjunto de datos de clics de 2.5 TB [19]
  • ICWSM puso a disposición una gran cantidad de publicaciones de blog para su conferencia de 2011 [2]. Tendrás que registrarte (un formulario real, no un formulario en línea), pero es gratis. Se trata de 2.1 TB comprimidos.
  • El conjunto de datos de Yahoo News Feed tiene 1.5 TB comprimidos, 13.5 TB sin comprimir
  • Proteome Commons pone a disposición varios conjuntos de datos de gran tamaño. El más grande, el Proyecto Genoma Personal [11], tiene un tamaño de 1,1 TB. Hay varios más de más de 100 GB de tamaño.

Más de 1 GB

  • El conjunto de datos de desglose de energía de referencia [12] tiene datos sobre el uso de energía en el hogar; Son unos 500 GB comprimidos.
  • El conjunto de datos de Tiny Images [10] tiene 227 GB de datos de imágenes y 57 GB de metadatos.
  • El conjunto de datos de ImageNet [18] es bastante grande.
  • El dataset MOBIO [14] es de aproximadamente 135 GB de datos de video y audio
  • El Yahoo! El programa Webscope [7] pone a disposición de los investigadores académicos varios conjuntos de datos de 1 GB +, incluido un conjunto de datos de 83 GB de características de imágenes de Flickr y el conjunto de datos utilizado para la Copa KDD 2011 [9], de Yahoo! Música, que es un poco más de 1 GB.
  • Google creó un conjunto de datos para asignar palabras a las URL de Wikipedia (es decir, conceptos) [15]. El conjunto de datos tiene unos 10 GB comprimidos.
  • Yandex recientemente ha hecho disponible un conjunto de datos de clics de búsqueda web muy grande [1]. Tendrás que registrarte en línea para descargar el concurso. Se trata de 5,6 GB comprimidos.
  • Freebase hace volcados de datos regulares disponibles [5]. El más grande es su volcado Quad [4], que tiene unos 3,6 GB comprimidos.
  • El Open American National Corpus [8] tiene aproximadamente 4,8 GB sin comprimir.
  • Wikipedia hizo un conjunto de datos que contenía información sobre ediciones disponibles para una competencia reciente de Kaggle [6]. El conjunto de datos de entrenamiento es de aproximadamente 2.0 GB sin comprimir.
  • La Administración de Investigación y Tecnología Innovadora (RITA) ha puesto a disposición un conjunto de datos sobre el desempeño a tiempo de los vuelos nacionales operados por grandes aerolíneas. El ASA comprimió este conjunto de datos y lo pone a disposición para su descarga [16].
  • Los datos de enlaces de wiki disponibles por Google son aproximadamente 1,75 GB en total [20].

[1] http://imat-relpred.yandex.ru/en

[2] http://www.icwsm.org/2011/data.php

[3] http://lemurproject.org/clueweb0

[4] http://wiki.freebase.com/wiki/Da

[5] http://download.freebase.com/dat

[6] http://www.kaggle.com/c/wikichal

[7] http://webscope.sandbox.yahoo.co

[8] http: //americannationalcorpus.or

[9] http://kddcup.yahoo.com/datasets

[10] http://horatio.cs.nyu.edu/mit/ti

[11] https://proteomecommons.org/data

[12] http://redd.csail.mit.edu/

[13] http://www.1000genomes.org/ftpse

[14] https://www.idiap.ch/dataset/mobio

[15] http://www-nlp.stanford.edu/pubs

[16] http://stat-computing.org/dataex

[17] http://blog.archive.org/2012/10/

[18] http://www.image-net.org/index

[19] http://cnets.indiana.edu/groups/

[20] wiki-links – Datos de enlaces de Wikipedia – Google Project Hosting

[21] El conjunto de datos ClueWeb12

[22] ClueWeb12 Datos relacionados:

Hice una publicación en el blog sobre datos abiertos hace mucho tiempo ( http://bret.appspot.com/entry/we …), y ReadWriteWeb hizo un buen resumen basado en todos los comentarios de la publicación del blog: http: // www .readwriteweb.com / arch

Desde esa publicación, ha habido muchos más comentarios en el blog (105 y contando), por lo que es posible que desee combinar los comentarios de cualquiera de las publicaciones de RWW perdidas.

Proyecto 1000Genomes: http://www.1000genomes.org/data#…
Datos de la base de datos de películas de Internet: http://www.imdb.com/interfaces
Raspados de feeds de Twitter (producto) (algunos son gratuitos): http://blog.infochimps.com/2008/… (gracias al Usuario de Quora)
¿Cuáles son algunos conjuntos de datos públicos gratuitos?
¿Qué API de datos o fuentes deberían estar en mi guía O’Reilly?
http://news.ycombinator.com/item
¿Hay conjuntos de datos grandes y gratuitos en el formato de un registro de acceso de Apache?
30 TB de datos de rastreo web: http://www.commoncrawl.org/data/
Base de datos de imágenes: http://sipi.usc.edu/database/dat
http://warsteiner.db.cs.cmu.edu/
Conjuntos de datos lanzados por Google

Grandes conjuntos de datos principalmente de finanzas y economía que también podrían aplicarse en campos relacionados que estudian la condición humana:

Datos del Banco Mundial. Muchos años Muchos países Países | Datos. Muchas variables de datos (Temas | Datos – Indicadores | Datos – Catálogo), años y países.

Su ventana a las estadísticas federales de EE. UU.

FRB: Lanzamientos de datos

Datos económicos de la Reserva Federal

A nuestro gobierno también le gusta mantenerse informado a nivel mundial y está dispuesto a compartir algunos de esos datos: CIA -The World Factbook

Informes sobre desarrollo humano – Programa de las Naciones Unidas para el Desarrollo – Public Data Explorer

Índice de precios al consumidor

Revelando la belleza de las estadísticas para una visión del mundo basada en hechos. – ( http://www.gapminder.org/ )

Trazador de datos

Posiblemente mirando el Informe de Capital Humano 2015 tiene clasificaciones del índice de capital humano tiene varias medidas de educación y capacidades de productividad.

El comercio internacional

Estadísticas históricas internacionales (por Brian Mitchell)

  • Datos: Comercio agregado (valor actual), comercio bilateral con los principales socios comerciales (valor actual), y principales exportaciones de productos básicos por parte de los principales países exportadores. No hay datos disponibles sobre el comercio como participación del PIB.
  • Cobertura geográfica: países de todo el mundo
  • Intervalo de tiempo: series de tiempo largas con observaciones anuales, desde el siglo XIX hasta hoy (2010)
  • Disponible en: Los libros se publican en tres volúmenes que cubren más de 5000 páginas. 11 En algunas universidades puede acceder a la versión en línea de los libros donde las tablas de datos se pueden descargar como archivos ePDF y Excel. El acceso en línea no está aquí.
  • Los datos del siglo XIX en adelante para países de todo el mundo están disponibles en las Estadísticas históricas internacionales (IHS). Estas estadísticas, originalmente publicadas bajo el liderazgo editorial de Brian Mitchell (desde 1983), son una colección de conjuntos de datos tomados de muchas fuentes primarias, incluidos resúmenes oficiales nacionales e internacionales.

Penn World Tables

  • Datos: PIB real y ajustado por PPA en millones de dólares estadounidenses, cuentas nacionales (consumo de los hogares, inversión, consumo del gobierno, exportaciones e importaciones), tasas de cambio y cifras de población.
  • Cobertura geográfica: países de todo el mundo
  • Intervalo de tiempo: de 1950 a 2011 (versión 8.1)
  • Disponible en: en línea aquí
  • Feenstra, Robert C., Robert Inklaar y Marcel P. Timmer (2015), “The Next Generation of the Penn World Table”, próxima publicación American Economic Review, disponible para descargar en http://www.ggdc.net/pwt

Correlatos del comercio bilateral de guerra

  • Datos: Total de comercio nacional y flujos comerciales bilaterales entre estados. Importaciones y exportaciones totales de cada país en millones de dólares actuales y flujos bilaterales en millones de dólares actuales
  • Cobertura geográfica: países individuales alrededor del mundo
  • Intervalo de tiempo: de 1870 a 2009
  • Disponible en: en línea en http://www.correlatesofwar.org
  • Este conjunto de datos está alojado por Katherine Barbieri, Universidad de Carolina del Sur, y Omar Keshk, Universidad Estatal de Ohio.

Banco Mundial – Indicadores del desarrollo mundial

  • Datos: Comercio (% del PIB) y muchas series más específicas: comercio de mercancías, comercio de servicios, comercio de alta tecnología, comercio de bienes TIC, comercio de servicios TIC: siempre exporta e importa por separado. También exportar e importar el índice de valor y el índice de volumen.
  • Cobertura geográfica: países y regiones del mundo
  • Plazo: anual desde 1960
  • Disponible en: en línea en http://data.worldbank.org

Comtrade de la ONU

  • Datos: flujos comerciales bilaterales por producto
  • Cobertura geográfica: países de todo el mundo
  • Periodo de tiempo: 1962-2013
  • Disponible en: en línea aquí

UNCTADstat

  • Datos: muchas medidas diferentes, incluido el comercio por volúmenes y valor
  • Cobertura geográfica: países de todo el mundo
  • Periodo de tiempo: para algunas series, los datos están disponibles desde 1948, principalmente anuales, a veces trimestrales.
  • Disponible en: en línea aquí

Eurostat – COMEXT

  • Datos: flujos comerciales (también por productos)
  • Cobertura geográfica: Europa (UE y AELC)
  • Intervalo de tiempo: principalmente desde 1988
  • Disponible en: en línea aquí
  • Además, el sitio web de Eurostat ‘Estadísticas explicadas’ publica información estadística actualizada sobre el comercio internacional de bienes y servicios .

Organización Mundial del Comercio – OMC

  • Datos: muchas series sobre aranceles y flujos comerciales
  • Cobertura geográfica: países de todo el mundo
  • Intervalo de tiempo: desde 1948 para algunas series
  • Disponible en: en línea aquí

Base de datos CEPII sobre la economía mundial

  • Datos: muchos conjuntos de datos diferentes relacionados con el comercio internacional, incluidos los flujos comerciales por variables geográficas de productos básicos y variables para estimar modelos de gravedad
  • Cobertura geográfica: países de todo el mundo
  • Intervalo de tiempo: algunas series se remontan a la década de 1990.
  • Disponible en: en línea aquí

NBER-Datos comerciales de las Naciones Unidas, 1962-2000

  • Datos: Exportar e importar valores y volúmenes por producto
  • Cobertura geográfica: países individuales
  • Lapso de tiempo: 1962-2000
  • Disponible en: en línea aquí
  • Estos datos también están disponibles en el Centro de Datos Internacionales .

Conjuntos de datos comerciales históricos más pequeños

  • David S. Jacks recopiló datos sobre el comercio bilateral del Reino Unido para el período 1870-1913. Se puede descargar en formato Excel aquí.
  • Para el período 1870-1913 , se pueden encontrar 21,000 observaciones comerciales bilaterales en Mitchener y Weidenmier (2008) – Comercio e imperio, disponibles en el Economic Journal aquí.
  • Los datos sobre el Reino Unido, Alemania, Francia y EE. UU. Entre mediados del siglo XIX y XX se pueden encontrar aquí.
  • Los datos sobre la exportación de los países en desarrollo – en 1840, 1860, 1880 y 1900 – por John Hanson están disponibles aquí.
  • Los datos sobre el comercio entre Inglaterra y África durante el período 1699-1808 están disponibles en el archivo de datos holandés y los servicios en red. Fue compilado por Marion Johnson.

Aplicando estas mismas fuentes a la calidad de la educación en los países en desarrollo:

  • El índice de educación de múltiples hojas de datos de Excel está disponible en Informes de Desarrollo Humano o puede usar su herramienta para explorar los datos Informe de Desarrollo Humano también tiene acceso a Google para explorar los datos. : Índice de desarrollo humano e índice de alfabetización de adultos y tasa bruta de matrícula
  • El Banco Mundial tiene tasas de alfabetización Tasa de alfabetización de adultos, población mayor de 15 años, ambos sexos (%) además de muchos otros datos: datos del Banco Mundial. Muchos años Muchos países | Datos. Muchas variables de datos Temas | Datos – Indicadores | Datos – Catálogo | El Banco Mundial.
  • A nuestro gobierno también le gusta mantenerse informado y está dispuesto a compartir algunos de esos datos: CIA -The World Factbook
  • Posiblemente mirando el Informe de Capital Humano 2015 tiene clasificaciones del índice de capital humano tiene varias medidas de educación y capacidades de productividad.
  • Revelando la belleza de las estadísticas para una visión del mundo basada en hechos. – ( http://www.gapminder.org/ )
  • Trazador de datos: tiene puntajes promedio de prueba
  • Penn World Tables – Datos: PIB real y ajustado por PPA en millones de dólares estadounidenses, cuentas nacionales (consumo familiar, inversión, consumo gubernamental, exportaciones e importaciones), tasas de cambio y cifras de población. Feenstra, Robert C., Robert Inklaar y Marcel P. Timmer (2015), “The Next Generation of the Penn World Table”, próxima publicación American Economic Review, disponible para descargar en http://www.ggdc.net/pwt

Dado que nuestros usuarios orientados al aprendizaje automático nos hacen esta pregunta con mucha frecuencia, mi empresa (BigML) ha compilado una lista con más de 250 fuentes aquí:
Lista de fuentes de datos públicas aptas para el aprendizaje automático

También puede consultar la publicación de blog relacionada para obtener más contexto:
Datos, datos, datos: miles de fuentes de datos públicas

Base de datos estadísticos de Suecia

¿Qué es la base de datos estadística?

Desde enero de 1997, Statistics Sweden tiene bases de datos disponibles en Internet. El objetivo es proporcionar un mayor acceso a las estadísticas y permitir a los usuarios descargar fácilmente información a sus propias computadoras.
Base de datos estadísticos
Contenido y busqueda
La base de datos estadísticos contiene una gran cantidad de estadísticas oficiales de las que es responsable Statistics Sweden. También se incluyen estadísticas oficiales de otras autoridades estadísticas. La base de datos contiene varias tablas donde la información seleccionada se puede presentar en la pantalla, en forma impresa o transmitida a la computadora del usuario para su posterior procesamiento.
El proceso de búsqueda se puede realizar de tres maneras:

  • a través del enlace “NYA SIFFROR – Välj från senast uppdaterade tabeller” (solo en la versión sueca del sitio web). “Nya siffror” muestra las últimas tablas actualizadas en la base de datos estadística.
  • a través de las áreas temáticas
  • o mediante Buscar en la base de datos estadística.

La base de datos estadísticos está disponible de forma gratuita. Al realizar recuperaciones menores de menos de 10000 celdas de tabla, el registro no es necesario. Para recuperaciones más grandes y algunos servicios complementarios futuros, el registro se realiza completando el formulario de registro .
Grandes archivos estadísticos (PC-Axis) (solo en la versión sueca del sitio web)
La capacidad de la base de datos es limitada cuando se trata de grandes recuperaciones. Para servir mejor a los usuarios de recuperaciones muy grandes, se han creado archivos de estadísticas listos para usar en formato PC-Axis, principalmente para material distribuido regionalmente.
PC-Axis
PC-Axis es un software que maneja tablas estadísticas muy grandes. PC-Axis se puede usar para procesar archivos de estadísticas ya preparados o archivos de PC-Axis desde la base de datos. El programa también puede pasar las estadísticas a otros programas, como hojas de cálculo, etc. PC-Axis se puede descargar de forma gratuita desde este sitio web.
Servicios relacionados con las bases de datos estadísticas.
Recuperaciones de bases de datos a medida en CD-ROM o disquete
Se pueden solicitar recuperaciones a medida para entregar en disquete o CD-ROM. El precio depende del costo de producción.
Micro bases de datos
Las micro bases de datos están disponibles después de una prueba de daños de datos anonimizados (anonimizados) en Statistics Sweden. Hay más información disponible sobre registros en Documentación de estadísticas (solo en la versión sueca del sitio web).
Cursos
Los cursos se llevan a cabo regularmente (en sueco) como una ayuda para aquellos que desean utilizar la base de datos estadística. Para obtener más información sobre los contenidos, horarios y precios de los cursos, consulte la versión sueca del sitio web Kurser .
Para obtener más información, comuníquese con los servicios de información de Statistics Sweden
Dirección postal: Box 24300, SE-10451 Estocolmo, Suecia.
Telefax: + 46-8-506 948 99
Teléfono: + 46-8-506 948 01

¿Qué es la base de datos estadística?

Desde enero de 1997, Statistics Sweden tiene bases de datos disponibles en Internet. El objetivo es proporcionar un mayor acceso a las estadísticas y permitir a los usuarios descargar fácilmente información a sus propias computadoras.
Base de datos estadísticos
Contenido y busqueda
La base de datos estadísticos contiene una gran cantidad de estadísticas oficiales de las que es responsable Statistics Sweden. También se incluyen estadísticas oficiales de otras autoridades estadísticas. La base de datos contiene varias tablas donde la información seleccionada se puede presentar en la pantalla, en forma impresa o transmitida a la computadora del usuario para su posterior procesamiento.
El proceso de búsqueda se puede realizar de tres maneras:

  • a través del enlace “NYA SIFFROR – Välj från senast uppdaterade tabeller” (solo en la versión sueca del sitio web). “Nya siffror” muestra las últimas tablas actualizadas en la base de datos estadística.
  • a través de las áreas temáticas
  • o mediante Buscar en la base de datos estadística.

La base de datos estadísticos está disponible de forma gratuita. Al realizar recuperaciones menores de menos de 10000 celdas de tabla, el registro no es necesario. Para recuperaciones más grandes y algunos servicios complementarios futuros, el registro se realiza completando el formulario de registro .
Grandes archivos estadísticos (PC-Axis) (solo en la versión sueca del sitio web)
La capacidad de la base de datos es limitada cuando se trata de grandes recuperaciones. Para servir mejor a los usuarios de recuperaciones muy grandes, se han creado archivos de estadísticas listos para usar en formato PC-Axis, principalmente para material distribuido regionalmente.
PC-Axis
PC-Axis es un software que maneja tablas estadísticas muy grandes. PC-Axis se puede usar para procesar archivos de estadísticas ya preparados o archivos de PC-Axis desde la base de datos. El programa también puede pasar las estadísticas a otros programas, como hojas de cálculo, etc. PC-Axis se puede descargar de forma gratuita desde este sitio web.
Servicios relacionados con las bases de datos estadísticas.
Recuperaciones de bases de datos a medida en CD-ROM o disquete
Se pueden solicitar recuperaciones a medida para entregar en disquete o CD-ROM. El precio depende del costo de producción.
Micro bases de datos
Las micro bases de datos están disponibles después de una prueba de daños de datos anonimizados (anonimizados) en Statistics Sweden. Hay más información disponible sobre registros en Documentación de estadísticas (solo en la versión sueca del sitio web).
Cursos
Los cursos se llevan a cabo regularmente (en sueco) como una ayuda para aquellos que desean utilizar la base de datos estadística. Para obtener más información sobre los contenidos, horarios y precios de los cursos, consulte la versión sueca del sitio web Kurser .
Para obtener más información, comuníquese con los servicios de información de Statistics Sweden
Dirección postal: Box 24300, SE-10451 Estocolmo, Suecia.
Telefax: + 46-8-506 948 99
Teléfono: + 46-8-506 948 01

Gañido proporciona datos y reseñas de las 250 empresas más cercanas de 30 universidades para que estudiantes y académicos exploren e investiguen. Descargué el conjunto de datos académicos de Yelp a principios de 2015 y contenía un total de 330.071 opiniones proporcionadas por 130.873 usuarios a 13.481 empresas.

El conjunto de datos es un único archivo comprimido con gzip, compuesto por un objeto json por línea. Cada objeto contiene un campo ‘tipo’, que le indica si es una empresa, un usuario o una revisión.

Los objetos comerciales contienen información básica sobre negocios locales.

{
‘type’: ‘business’,
‘business_id’: (un identificador único para este negocio),
‘nombre’: (el nombre comercial completo),
‘vecindades’: (una lista de nombres de vecindad, puede estar vacía),
‘full_address’: (dirección localizada),
‘ciudad’: (ciudad),
‘estado’: (estado),
‘latitud’: (latitud),
‘longitud’: (longitud),
‘estrellas’: (clasificación de estrellas, redondeada a medias estrellas),
‘review_count’: (recuento de revisión),
‘photo_url’: (URL de la foto),
‘categorías’: [(nombres de categoría localizados)]
‘open’: (¿el negocio sigue abierto para el negocio?),
‘escuelas’: (universidades cercanas),
‘url’: (url de yelp)
}

Los objetos de revisión contienen el texto de revisión, la calificación de estrellas e información sobre los votos que los usuarios de Yelp han emitido en la revisión.

{
‘type’: ‘review’,
‘business_id’: (el identificador de la empresa revisada),
‘user_id’: (el identificador del usuario autor)
‘estrellas’: (clasificación de estrellas, número entero 1-5),
‘texto’: (texto de revisión),
‘date’: (fecha, formateada como ‘2011-04-19’),
‘votos’: {
‘útil’: (recuento de votos útiles),
‘gracioso’: (recuento de votos graciosos),
‘cool’: (recuento de votos geniales)
}
}

Los objetos de usuario contienen información agregada sobre un solo usuario en todo Yelp (incluidas las empresas y las revisiones que no están en el conjunto de datos).

{
‘type’: ‘usuario’,
‘user_id’: (identificador único de usuario),
‘nombre’: (nombre, última inicial, como ‘Matt J.’),
‘review_count’: (recuento de revisión),
‘average_stars’: (promedio de coma flotante, como 4.31),
‘votos’: {
‘útil’: (recuento de votos útiles en todas las revisiones),
‘gracioso’: (recuento de votos graciosos en todas las reseñas),
‘cool’: (recuento de votos geniales en todas las reseñas)
}
}

Yelp también tiene un Desafío de conjuntos de datos de Yelp donde se otorgan más de $ 35,000 en premios en efectivo.

Para el desafío del conjunto de datos, Yelp proporciona un conjunto de datos más grande que el conjunto de datos académicos mencionado anteriormente. En la actualidad (cuando se escribe esta respuesta), el conjunto de datos de desafío incluye información sobre empresas locales en 10 ciudades de 4 países.

El conjunto de datos de desafío contiene:

1.6M opiniones y 500K consejos por 366K usuarios para 61K empresas
481K atributos comerciales, por ejemplo, horas, disponibilidad de estacionamiento, ambiente.
Red social de 366K usuarios para un total de 2.9M de bordes sociales.
Check-ins agregados a lo largo del tiempo para cada una de las 61K empresas

Búsqueda personalizada de Google

Puede usar la Búsqueda personalizada de Google para conjuntos de datos:

Búsqueda personalizada de Google: conjuntos de datos

230 fuentes y meta-fuentes de conjuntos de datos, incluidos todos los mencionados en esta pregunta. Siéntase libre de excluir .gov y cualquier otro sitio web de los resultados agregando “-.gov” o “-site.com” a la línea de búsqueda. Otros operadores de búsqueda de Google funcionan.

No dude en ponerse en contacto conmigo si tiene ideas sobre qué sitios web agregar.

IOGDS

El siguiente servicio pone en orden más de 1,000,000 de conjuntos de datos públicos:

IOGDS: Búsqueda internacional de conjuntos de datos de gobierno abierto

He encontrado que Kaggle.com es un recurso fantástico, ya que los conjuntos de datos se relacionan con problemas comerciales específicos y son proporcionados por las compañías respectivas.

Kaggle realiza concursos para desarrollar los mejores modelos predictivos basados ​​en conjuntos de datos de origen. Las competiciones actuales son:
1. Mejore la calificación crediticia al predecir la probabilidad de que alguien experimente dificultades financieras en dos años
2. Predecir si un auto comprado en una subasta es una “mala compra”
3. Identifique a los pacientes que serán ingresados ​​en un hospital dentro del próximo año, utilizando datos de reclamos históricos

Se otorgan premios a los mejores modelos predictivos, desde $ 5,000 a $ 3 millones (para la competencia de seguros de salud).

Puede usar los conjuntos de datos de forma gratuita después de registrarse como competidor, aunque hay problemas legales relacionados con la propiedad de modelos predictivos que deben considerarse.

Replanteando la respuesta de Alan Morrison a ¿Dónde en la web puedo encontrar muestras gratuitas de conjuntos de Big Data, por ejemplo, de países, ciudades o individuos, para analizar?

Esta lista de enlaces, disponible en Github, es bastante larga y completa: caesar0301 / awesome-public-datasets Verá muchas fuentes de datos del censo. Entonces, el desafío es cómo llegar a lo que realmente quieres y puedes usar.

Tenga en cuenta que esta lista también hace referencia a una respuesta de Quora que también incluye una larga lista: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Para su comodidad, he copiado la lista de listas tal como estaba en enero de 2015 aquí, pero no la actualizaré:

Impresionantes conjuntos de datos públicos

Esta lista de fuentes de datos públicos se recopila y ordena a partir de blogs, respuestas y respuestas de los usuarios. La mayoría de los conjuntos de datos enumerados a continuación son gratuitos, sin embargo, algunos no lo son. Otras listas asombrosamente impresionantes se pueden encontrar en theawesome-awesomeness y otra impresionante lista.

Agricultura

  • Base de datos PLANTS del Departamento de Agricultura de EE. UU.

Biología

  • 1000 genomas
  • Investigación colaborativa en neurociencia computacional (CRCNS)
  • Omnibus de expresión génica (GEO)
  • Proyecto de microbioma humano (HMP)
  • ICOS PSP Benchmark
  • Datos de genómica del cáncer del MIT
  • Datos de microarrays NIH (FTP)
  • Banco de datos de proteínas
  • Proyecto PubChem
  • PubGene (ahora Coremine Medical)
  • Stanford Microarray Data
  • El Proyecto Genoma Personal o PGP
  • Datos públicos de UCSC
  • UniGene

Clima

  • Clima australiano
  • Centro Meteorológico de Canadá
  • Datos climáticos de la UEA (actualizados mensualmente)
  • Datos climáticos mundiales desde 1929
  • NOAA Clima del Mar de Bering
  • Conjuntos de datos climáticos de NOAA
  • Modelos meteorológicos en tiempo real de NOAA
  • WU El tiempo histórico en todo el mundo

Redes complejas

  • CrossRef DOI URLs
  • Conjunto de datos de citas DBLP
  • NBER Citaciones de patentes
  • Recopilación de datos de redes complejas NIST
  • Red de interacción proteína-proteína
  • Red de dependencia de PyPI y Maven
  • Base de datos de citas de Scopus
  • Stanford GraphBase (Steven Skiena)
  • Colección de conjunto de datos de red grande de Stanford
  • La colección de la red Koblenz
  • El Laboratorio de Algoritmos Web (UNIMI)
  • Depósito de datos de red UCI
  • Colección de matriz dispersa de UFL
  • WSU Graph Database

Red de computadoras

  • Páginas web 3.5B de CommonCraw 2012
  • 53.5B clics web de 100K usuarios en Indiana Univ.
  • Conjuntos de datos de Internet de CAIDA
  • ClueWeb09 – páginas web 1B
  • ClueWeb12 – 733M páginas web
  • Datos web de CommonCrawl durante 7 años
  • CRAWDAD Conjuntos de datos inalámbricos de Dartmouth Univ.
  • Datos móviles abiertos por MobiPerf
  • Telescopio de red UCSD, red IPv4 / 8

Desafíos de datos

  • Desafíos en el aprendizaje automático
  • DrivenData Competiciones por el bien social
  • ICWSM Data Challenge (desde 2009)
  • Datos de competencia de Kaggle
  • Copa KDD de Tencent 2012
  • Desafío de visualización de datos de Localytics
  • Premio Netflix
  • Desafío del conjunto de datos de Yelp

Ciencias económicas

  • American Economic Ass (AEA)
  • EconData de UMD
  • Base de datos de código de producto de Internet

Energía

  • AMPds
  • AZUL
  • CARDADO
  • Puerto de datos
  • ECO
  • EIA
  • HFED
  • iAWE
  • Tartán
  • REDD
  • UK-Dale

Financiar

  • CBOE Futures Exchange
  • Google Finance
  • Tendencias de Google
  • NASDAQ
  • OANDA
  • Datos financieros de la OSU
  • Quandl
  • St Louis Federal
  • Yahoo Finanzas

GeoSpace / GIS

  • BODC – datos marinos de ~ 22K vars
  • EOSDIS – Datos del sistema de observación de la Tierra de la NASA
  • Datos de ubicación global fácticos
  • Base de datos de áreas administrativas globales (GADM)
  • Datos geoespaciales de ASU
  • GeoNames en todo el mundo
  • Tierra natural – vectores y rasters del mundo
  • Open Street Map (OSM)
  • TIGRE / Línea – Límites y carreteras de EE. UU.
  • TwoFishes – Geocodificador grueso de Foursquare
  • TZ Timezones shapfiles

Gobierno

  • Australia (abs.gov.au)
  • Australia (data.gov.au)
  • Canadá
  • Chicago
  • EuroStat
  • FedStats
  • Alemania
  • Glasgow, Escocia, Reino Unido
  • Guardian gobiernos mundiales
  • Almacén de datos de Londres, Reino Unido
  • MassGIS, Massachusetts, EE. UU.
  • Países Bajos
  • Nueva Zelanda
  • Betanyc de Nueva York
  • NYC Open Data
  • OCDE
  • Plataforma de datos de gobierno abierto (DAG) India
  • Conjuntos de datos de San Francisco
  • Sudáfrica
  • El Banco Mundial
  • Datos del gobierno del Reino Unido
  • Encuesta de la comunidad estadounidense de EE. UU.
  • Conjuntos de datos de salud pública de los CDC de EE. UU.
  • Oficina del Censo de EE.UU
  • Departamento de Vivienda y Desarrollo Urbano de los Estados Unidos (HUD)
  • Agencias del gobierno federal de EE. UU.
  • Catálogo de datos del gobierno federal de EE. UU.
  • Administración de Drogas y Alimentos de los Estados Unidos (FDA)
  • Gobierno Abierto de EE. UU.
  • Censo 2011 del Reino Unido Open Atlas Project
  • Naciones Unidas

Cuidado de la salud

  • EHDP grandes conjuntos de datos de salud
  • Gapminder World, bases de datos demográficas
  • Base de datos de cobertura de Medicare (MCD), EE. UU.
  • Motor de datos de Medicare de datos de medicare.gov
  • Archivo de datos de Medicare

Procesamiento de imágenes

  • 2GB de fotos de gatos
  • Benchmark de reconocimiento facial
  • ImageNet: una base de datos de imágenes en la jerarquía de WordNet

Aprendizaje automático

  • Delve Datasets para clasificación y regresión (Univ. De Toronto)
  • Datos mensuales de Discogs
  • Subastas en línea de eBay (2012)
  • Base de datos de IMDb
  • Depósito de quillas para clasificación, regresión y series de tiempo
  • Datos de préstamos del Club de préstamos
  • Repositorio de conjunto de datos de aprendizaje automático
  • Conjunto de datos de millones de canciones
  • Más conjuntos de datos de canciones
  • Conjuntos de datos de MovieLens
  • RDataMining – Datos del libro electrónico “R and Data Mining”
  • Meteoritos Registrados en la Tierra
  • Datos de puntuación de salud de restaurantes en San Francisco
  • Depósito de aprendizaje automático de UCI
  • Yahoo! Calificaciones y datos de clasificación

Museos

  • Base de datos de la colección de Cooper-Hewitt
  • Metadatos del Instituto de Artes de Minneapolis
  • Tada Collection metadata
  • Los vocabularios de Getty

Lenguaje natural

  • ClueWeb09 FACC
  • ClueWeb12 FACC
  • DBpedia – 4.58 millones de cosas con 583 millones de datos
  • Flickr Taxonomías personales
  • Google Books Ngrams (2.2TB)
  • Google Web 5gram (1TB, 2006)
  • Lista de libros electrónicos de Gutenberg
  • Hansards fragmentos de texto del Parlamento canadiense
  • Traducción automática de lenguas europeas
  • Colección de spam de SMS en inglés
  • Corpus de publicaciones de USENET de 2005 ~ 2011
  • Wikidata – bases de datos de Wikipedia
  • Datos de enlaces de Wikipedia: 40 millones de entidades en contexto
  • Bases de datos y herramientas de WordNet

Física

  • Portal de datos abiertos del CERN
  • Datos de NSSDC (NASA) de 550 naves espaciales

Dominios Publicos

  • Amazonas
  • Conjuntos de datos de Archive.org
  • Archivo de datos CMU JASA
  • Colecciones de CMU StatLab
  • Data360
  • Datamob.org
  • Google
  • Infochimps
  • Colecciones de datos de KDNuggets
  • Numbray
  • Conjuntos de datos de Reddit
  • Colección RevolutionAnalytics
  • Conjuntos de datos de muestra R
  • Conjuntos de datos Stats4Stem R
  • StatSci.org
  • La lista de correos de Washington
  • Recolección de datos de UCLA SOCR
  • Informes de ovnis
  • Interceptor de buscapersonas Wikileaks 911
  • Yahoo Webscope

Los motores de búsqueda

  • Torrents académicos de intercambio de datos desde UMB
  • Archivarlo desde Internet Archive
  • Datahub.io
  • DataMarket (Qlik)
  • Freebase.com de personas, lugares y cosas
  • Harvard Dataverse Network de datos científicos
  • ICPSR (UMICH)
  • Statista.com – estadísticas y estudios

Ciencias Sociales

  • Ancestry.com Forum Dataset más de 10 años
  • CMU Enron Correo electrónico de 150 usuarios
  • Raspado de datos de Facebook (2005)
  • Redes sociales de Facebook de LAW (desde 2007)
  • Red Social Cuadrangular en 2010, 2011
  • Cuadrangular de UMN / Sarwat (2013)
  • Encuesta social general (GSS) desde 1972
  • GetGlue: los usuarios califican los programas de TV
  • Archivo de colaboración de GitHub
  • Redes sociales móviles de UMASS
  • Proyecto de encuesta por Internet PewResearch
  • Datos de investigación de SourceForge.net
  • StackExchange Data Explorer
  • Conjunto de datos de supervivencia titánica
  • Gráfico de Twitter de todo el sitio de Twitter
  • Archivo de datos de ciencias sociales de la UCB (D-Lab)
  • Archivo de datos de ciencias sociales de UCLA
  • Conjuntos de datos de redes sociales UNIMI / LAW
  • Universidades de todo el mundo
  • UPJOHN para Investigación Laboral Laboral
  • Yahoo! Gráfica y datos sociales
  • Youtube Video Social Graph en 2007,2008

Deportes

  • Datos de intercambio histórico de Betfair
  • Partidos de cricsheet (béisbol)
  • Ergast Formula 1, desde 1950 hasta la fecha (API)
  • Recursos de fútbol / fútbol (datos y API)
  • Base de datos de béisbol de Lahman
  • Retrosheet Estadísticas de Béisbol

Series de tiempo

  • Biblioteca de datos de series temporales (TSDL) de MU
  • Conjunto de datos de la serie temporal de UC Riverside

Transporte

  • Datos OD de aerolíneas 1987-2008
  • Colección Bike Share Systems (BSS)
  • Hubway Million Rides en MA
  • Tráfico marítimo: rutas de barcos, escala de puertos y más
  • Datos del viaje en taxi de Nueva York 2013 (FOIA / FOILed)
  • OpenFlights – aeropuerto, aerolínea y datos de ruta
  • Datos de rendimiento a tiempo de la aerolínea RITA
  • Recopilación de datos de transporte RITA / BTS (TranStat)
  • Transporte para Londres (TFL)
  • Encuesta de seguimiento de viajes (TTS) para Chicago
  • Oficina de Estadísticas de Transporte de EE. UU. (BTS)
  • Vuelos nacionales de EE. UU. 1990 a 2009
  • Marco de análisis de carga de EE. UU. Desde 2007

Colecciones complementarias

  • DataWrangling: algunos conjuntos de datos disponibles en la web
  • Inside-r: encontrar datos en Internet
  • Quora: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • como ser golpeado en el cerebro !: Más de 100 conjuntos de datos interesantes para estadísticas
  • StaTrek: aprovechando los datos abiertos para comprender la vida urbana ”

Fuente: Github de Xiaming caesar0301 / awesome-public-datasets, enero de 2015. Vaya a Github para ver esta y otras listas actualizadas.

20 grupos de noticias: tarea de clasificación, asignación de ocurrencias de palabras al ID del grupo de noticias (Página de inicio para 20 grupos de datos de grupos de noticias)
Reuters (RCV *) Corpuses: predicción de texto / tema (Página en reuters.com)
Penn Treebank: se usa para la predicción de la siguiente palabra o la predicción del siguiente carácter (Penn Treebank Project)
Broadcast News: conjunto de datos de texto grande, utilizado de forma clásica para la predicción de la siguiente palabra (1996 English Broadcast News Speech (HUB4))
Conjunto de datos de Wikipedia
Conjunto de datos de análisis de sentimiento multidominio: Conjunto de datos de sentimiento multidominio

Sistemas de recomendación

MovieLens: dos conjuntos de datos disponibles de GroupLens. El primer conjunto de datos tiene 100.000 clasificaciones para 1682 películas de 943 usuarios, subdividido en cinco subconjuntos disjuntos. El segundo conjunto de datos tiene alrededor de 1 millón de calificaciones para 3900 películas por 6040 usuarios.
Jester: este conjunto de datos contiene 4.1 millones de clasificaciones continuas (-10.00 a +10.00) de 100 chistes de 73,421 usuarios.
Premio Netflix: Netflix lanzó una versión anónima de su conjunto de datos de clasificación de películas; consta de 100 millones de calificaciones, realizadas por 480,000 usuarios que han calificado entre 1 y todas las 17,770 películas.
Conjunto de datos de Book-Crossing: este conjunto de datos es de la comunidad de Book-Crossing y contiene 278,858 usuarios que proporcionan 1,149,780 clasificaciones sobre 271,379 libros.

Aquí hay una lista de conjuntos de datos abiertos

  • Data.gov (EE. UU.),
  • El Banco de datos del Banco Mundial
  • http://www.reddit.com/r/datasets
  • Un catálogo profundo de variación genética humana ( tamaño: 396.7 TB)
  • Ciudad de Chicago | Portal de datos ( tamaño: 9.5GB)
  • Tamaño de Google Ngram Viewer : 863.4GB
  • Gobierno Abierto (Canadá)
  • Educación – Data.gov (Educación)
  • Escuela de Ciencias Geográficas y Planificación Urbana Geo-data

Espero que sea útil

He estado recopilando este conjunto de datos proporcionado por UIDAI,
Adhar (UIDAI) una información maravillosa proporcionada por el gobierno indio.
Cosas que me gustan de este conjunto de datos:

  • Gran manera para que los principiantes como yo exploren los conceptos básicos de Data Science utilizando las últimas herramientas como ipython, Pandas, Anaconda, etc.
  • Este conjunto de datos está siendo utilizado por los cursos UDACITY (Introducción a la ciencia de datos) ver referencias para videos
  • Es un dato en tiempo real, se actualiza cada dos días.
  • Puede usar las llamadas API REST para obtener los datos de un día en particular, un mes en particular O solo los últimos datos.
  • Probablemente sea un gran dato de datos de la población de la India. Para obtener más información sobre la descarga, consulte:

http: //bhardwajgaurav.wordpress… .

Aquí hay algunos grandes corpus que usamos en PNL además de los ya mencionados:

  • ukWaC: un corpus de 2 mil millones de palabras construido a partir de la Web que limita el rastreo al dominio .uk y utiliza palabras de frecuencia media del BNC como semillas. El corpus fue etiquetado en POS y lematizado con el TreeTagger. También hay una versión analizada llamada pukWac. Obtenga ambos en: http://wacky.sslmit.unibo.it/dok
  • WaCkypedia: un volcado de 2009 de la Wikipedia en inglés (alrededor de 800 millones de tokens), que incluye parte de la información del habla / lema, así como un análisis sintáctico completo. Los textos se extrajeron del vertedero y se limpiaron con el extractor de Wikipedia. Consíguelo en la misma URL que ukWac: http://wacky.sslmit.unibo.it/dok
  • Cuerpo de USENET: una colección de publicaciones públicas de USENET. Este corpus se recopiló entre octubre de 2005 y enero de 2011, y abarca 47860 grupos de noticias de archivos no binarios en inglés. Consíguelo en: http://www.psych.ualberta.ca/~we … [CAVEAT: ¡es enorme!]
  • La recopilación de datos que viene con el Kit de herramientas de lenguaje natural (NLTK). Probablemente no sea tan grande como los demás, pero es un buen conjunto. Consulte las descripciones en: http://nltk.googlecode.com/svn/t
  • Europarl: Actas del Parlamento Europeo en 13 idiomas. Limpiado y preprocesado para la investigación de traducción automática. Consíguelo en: http://www.statmt.org/europarl [FYI, NLTK tiene una interfaz incorporada para acceder a este corpus.]
  • El corpus de Google Books Ngram: bastante grande. Consíguelo en: http://books.google.com/ngrams/d

La curva de evolución se está moviendo del apoyo a la toma de decisiones a ser cada vez más operativo, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. Aplique análisis efectivos y modelos comerciales sofisticados en grandes volúmenes de datos. Haga clic aquí. BI entró en escena hace quince años y TI poseía estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI.

Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando.

un proveedor de servicios de análisis y ciencia de decisiones dice que “los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

Con la llegada de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un entorno de toma de decisiones agradable. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica predictiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es curioso, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

Aquí hay un enlace útil.
Encontrar datos en Internet

Encontrar datos en InternetBy RevoJoe
el 6 de octubre de 2011

La siguiente lista de fuentes de datos ha sido modificada a partir del 19/08/13. La mayoría de los conjuntos de datos enumerados a continuación son gratuitos, sin embargo, algunos no lo son.

Si aparece una (R) después de la fuente, esto significa que los datos ya están en formato R o existen comandos R para importar directamente los datos de R. (Vea ejemplos :: introducción para algún código). De lo contrario, he limitado la lista a datos fuentes para las cuales existe un proceso razonablemente simple para importar archivos csv. Lo que sigue es una lista de fuentes de datos organizadas en categorías que no son mutuamente excluyentes pero que reflejan lo que existe.

Ciencias económicas

  • American Economic Ass. (AEA): AEAweb: RFE
  • UMD :: Inforum – EconData
  • Banco mundial: Indicadores | Datos

Financiar

  • CBOE Futures Exchange: CFE | Datos del mercado
  • Google Finance: cotizaciones bursátiles, noticias, conversiones de divisas y más (R)
  • Tendencias de Google: Tendencias de Google – Interés de búsqueda web – En todo el mundo, 2004 – presente
  • Fed de San Luis: Datos económicos de la Reserva Federal (R)
  • NASDAQ: NASDAQ – Almacén de datos
  • OANDA: Forex Trading | Comercio de divisas en línea | Broker de Forex | OANDA (R)
  • Quandl: Buscar, usar y compartir datos numéricos
  • Yahoo Finance: Yahoo Finance – Finanzas empresariales, Mercado de valores, Cotizaciones, Noticias (R)

Gobierno

  • Estadísticas archivadas del gobierno nacional: servicios de archivo web para bibliotecas y archivos
  • Australia: 3301.0 – Nacimientos, Australia, 2009
  • Canadá: Inicio | data.gc.ca
  • DataMarket: DataMarket – Buscar, comprender y compartir datos – DataMarket
  • Estadísticas de la Fed: FedStats: temas de la A a la Z
  • Gobiernos mundiales guardianes: página en guardian.co.uk
  • Datos de Londres, Reino Unido: Catálogo | London DataStore
  • Nueva Zelanda: http://www.stats.govt.nz/tools_and_services/tools/TableBuilder/tables-by
  • Datos de Nueva York: Datos abiertos de Nueva York
  • OCDE: Página en oecd.org
  • RITA: RITA | BTS | Título de h2
  • Conjuntos de datos de San Francisco: datos | San Francisco
  • Datos del gobierno del Reino Unido: Búsqueda de datos | data.gov.uk
  • Naciones Unidas: UNdata
  • Agencias del Gobierno Federal de EE. UU .: Participación de la Agencia Federal – Data.gov
  • Conjuntos de datos de salud pública de los CDC de EE. UU .: archivos de datos de uso público y documentación
  • El Banco Mundial: Informe sobre el desarrollo mundial
  • Proyecto Atlas Abierto del Censo 2011 del Reino Unido: página en alex-singleton.com

Cuidado de la salud

  • Gapminder: datos

Aprendizaje automático

  • Datos de aerolíneas (2009 ASA Challenge): los datos. Data expo 09. ASA Statistics Computing and Graphics
  • Aeropuertos y sus ubicaciones: aeropuertos y sus ubicaciones
  • AppliedPredictiveModeling (paquete R): página en bit.ly
  • Clima australiano: observaciones meteorológicas diarias
  • Causality Workbench: Datos – Repositorio – Causality Workbench
  • Datos de borde para vuelos nacionales de EE. UU. 1990 a 2009: vuelos nacionales de EE. UU. De 1990 a 2009
  • GroupLens Research (clasificaciones de películas y más): conjuntos de datos
  • Datos de competencia de Kaggle: pase de Big Data a Big Analytics
  • Sitio de competencia de KDNuggets: conjuntos de datos para minería de datos y ciencia de datos
  • La Colección de la Red Koblenz: La Colección de la Red Koblenz
  • Repositorio de conjunto de datos de aprendizaje automático: mldata :: Bienvenido
  • Archivo de datos de Medicare: página en cms.gov
  • Microsoft Research: nuestra investigación – Microsoft Research
  • Millones de canciones: The Million Song Dataset: Giving Back to Music Research
  • RDataMining.com: R y Data Mining Datos de libros electrónicos R y Data Mining: Datos – RDataMining.com: R y Data Mining
  • La colección Revolution Analytics: índice de / conjuntos de datos /
  • Redes sociales: conjunto de datos del foro de Ancestry.com
  • Depósito de aprendizaje automático UCI: Depósito de aprendizaje automático UCI
  • 53.500 millones de clics: Centro de investigación de redes y sistemas complejos

Colecciones de dominio público

  • Data360: Página de inicio de Data360
  • Página en datamob.org: Página en datamob.org
  • Hecho: Página en factual.com
  • Freebase: Freebase
  • Google: Google Public Data Explorer
  • infochimps: Big Data – Servicios en la nube
  • numbray: página en numbrary.com
  • Conjuntos de datos R de muestra: El paquete de conjuntos de datos R (R)
  • Datos de SourceForge Research: Datos
  • Informes de ovnis: Informes web del Centro nacional de informes ovni
  • Intercepta el buscapersonas Wikileaks 911: datos del localizador del 11 de septiembre
  • Recursos para estadísticas AP, introducción a estadísticas y R | STATS4STEM.ORG: conjuntos de datos R: conjuntos de datos estadísticos, conjuntos de datos estadísticos, conjuntos de datos para estadísticas, conjuntos de datos R (R)
  • The Washington Post List: Bases de datos de publicaciones (washingtonpost.com)

Ciencia

  • Experimentos agrícolas: agridat {agridat} (R)
  • Datos climáticos: datos de temperatura (HadCRUT4) yftp: //ftp.cmdl.noaa.gov/
  • Omnibus de expresión génica: Inicio – GEO – NCBI
  • Datos geoespaciales: datos | Centro GeoDa
  • Proyecto de microbioma humano: genomas de referencia microbianos
  • MIT Cancer Genomics Data: página en broadinstitute.org
  • NASA: Obteniendo datos del NSSDC
  • Datos de microarrays NIH: ftp://ftp.ncbi.nih.gov/pub/geo/D … (R)
  • Estructura proteica: referencia de PSP
  • Datos genéticos públicos: busque literatura o secuencia de vecinos
  • Datos de microarrays de Stanford: página en stanford.edu

Ciencias Sociales

  • Encuesta social general: Encuesta social general
  • ICPSR: Página en umich.edu
  • SNAP: Colección de conjunto de datos de red grande de Stanford
  • UCLA Social Sciences Archive: Portales de datos
  • UPJOHN INST: Centro de datos de investigación de empleo

Series de tiempo

  • Biblioteca de datos de series temporales: Biblioteca de datos de series temporales

Universidades

  • Correo electrónico de Enron de la Universidad Carnegie Mellon: conjunto de datos de correo electrónico de Enron
  • Carnegie Mellon University StatLab: StatLib — Archivo de conjuntos de datos
  • Archivo de datos JASA de la Universidad Carnegie Mellon: StatLib — Archivo de datos JASA
  • Ohio State University Datos financieros: Buscador de datos financieros
  • UC Berkeley: UC DATA: INICIO
  • UCLA: Datos SOCR – Socr
  • UC Riverside Time Series: Bienvenido a la página de clasificación / agrupación de series de tiempo de UCR
  • Universidad de Toronto: conjuntos de datos de Delve

Si está buscando datos de movilidad, existe el conjunto de datos de desafío Telecom Italia Bigdata. Puede encontrarlo aquí: Open Data Institute – nodo Trento

Son alrededor de 120 GB de datos y hay 7 tipologías diferentes de conjuntos de datos de la vida de la ciudad.

Otro conjunto de datos de tipo de datos de movilidad es el Data 4 Development lanzado por Orange, un operador francés. En 2013 lanzaron registros de descripción de llamadas sobre Costa de Marfil y en 2014 datos de CDR de Senegal.
Puede encontrar información sobre el desafío aquí: http://www.d4d.orange.com/en/home

Puede encontrar un nuevo desafío organizado por la Sociedad Americana de Estadística aquí: Apoye el desafío de datos en JSM 2015

Si desea más conjuntos de datos de cualquier tipo, desde datos de contaminación hasta datos de redes sociales, consulte esta publicación aquí: Conjuntos de datos de cualquier tipo: algunos enlaces. por Alket Cecaj sobre Algoritmos y Fusión de datos

La publicación se actualiza regularmente a medida que encuentro nuevos conjuntos de datos, como el conjunto de datos de los Papeles de Panamá.

Enron Corpus es una gran base de datos de más de 600,000 correos electrónicos generados por 158 empleados de Enron Corporation. He utilizado Enron Email Corpus para entrenar y probar mi algoritmo de clasificación de correo electrónico.
https://www.cs.cmu.edu/~enron/

Enlace de descarga [tgz] https://www.cs.cmu.edu/~enron/en

  1. Torrents Académicos
  2. Enlaces a conjuntos de datos gratuitos para aplicaciones de visión por computadora
  3. Biblioteca de imágenes de objetos de Amsterdam
  4. El CIFAR-10 y el CIFAR-100 son subconjuntos etiquetados del conjunto de datos de 80 millones de imágenes pequeñas.
  5. Conjunto de datos de señales de tráfico
  6. Aprendizaje automático y minería de datos: conjuntos de datos
  7. Hilo Quora
  8. DataMob
  9. Algunos más compartidos en bitly
  10. Grupo de aprendizaje automático de UCD
  11. Algunos enlaces del directorio abierto
  12. Un hilo sobre datos
  13. Blog de Kevin
  14. Conjuntos de datos públicos de recomendaciones y calificaciones
  15. Otro hilo de Quora para los datos específicos de Kinnect
  16. / r / conjuntos de datos