- Una lista de diarios de datos (sin ningún orden en particular)
- ¿Una base de datos de bases de datos abiertas? (también vea las preguntas más votadas en el intercambio de pila de datos abiertos en las preguntas más votadas)
- http://www.reddit.com/r/datasets
- https: //d396qusza40orc.cloudfron… (gran colección del curso de Análisis de datos de Coursera)
- ¿Dónde es posible encontrar datos climáticos sin procesar? (también NCAR – Guía de datos climáticos)
- El | Wiki de datos ecológicos
- PhysioNet: el mayor repositorio de bases de datos gratuitas de acceso abierto y herramientas informáticas de código abierto dedicadas a la informática de señales complejas
- Página en sdss.org – SDSS Astronomy datasets. Para más información sobre astronomía, vea ¿Cuáles son algunos conjuntos de datos de astronomía abiertos al público?
- http://berkeleyearth.org/dataset… – Conjunto de datos de Berkeley Earth
- http://static.reddit.com/RedditS… – encuesta masiva de Redditors y sus preferencias – ver http://blog.reddit.com/2011/09/w… para algunos análisis
- Bienvenido al sitio web de intercambio de datos CRCNS – para neurociencia
- http://archiveteam.org/index.php… – Archivos antiguos de sitios web que ya no existen. Incluye datos sobre las afinidades de más de 60,000 usuarios de Reddit
- http://www.r-bloggers.com/datase… – Conjuntos de datos para practicar su minería de datos – discutido en http://www.reddit.com/r/MachineL…
- http://www.ers.usda.gov/Data/ – Conjuntos de datos del Servicio de Investigación Económica del USDA
- http://www.mortality.org/ – conjuntos de datos de mortalidad humana
- http://www.fda.gov/Food/FoodSafe… – Conjuntos de datos de pesticidas de la FDA
- http://www.ams.usda.gov/AMSv1.0/pdp: conjuntos de datos de pesticidas del USDA
- Climatología: ¿Cuáles son algunas bases de datos meteorológicas históricas?
- http://www.epa.gov/data/ – Datos de la EPA
- http://data.giss.nasa.gov/ – Datos de NASA GISS
- http://jimwatsonsequence.cshl.edu/ – Secuencia de ADN de James Watson
- http: //evidence.personalgenomes…. – genomas públicos de personas inscritas en el proyecto de genoma personal – incluye genomas de Steven Pinker y Esther Dyson (persona de negocios). http: //evidence.personalgenomes…. por sus genomas
- http://voteview.org/downloads.asp – Conjuntos de datos de votación del Congreso (probablemente contiene * todo * sobre lo que votó cualquier político)
- http://www.norc.uchicago.edu/GSS… – Encuesta social general. Para ver un tutorial, consulte http: //blogs.discovermagazine.co…
- http://www.cfa.harvard.edu/hitran/ – base de datos de absorción molecular de transmisión de alta resolución. HITRAN en la web: http://hitran.iao.ru/molecule
- http://sarahsinbox.com/ – Correos electrónicos de Sarah Palin – analizados por Edwin Chen usando Asignación de Dirichlet Latente – ver http://blog.echen.me/2011/06/27/…
Algunos otros:
- http://www.cdc.gov/nchs/nhanes/n… – Encuesta nacional de examen de salud y nutrición
- http://www.nlsinfo.org/ordering/… – Datos de NSLY (sociología) [1]
- http://road.hmdc.harvard.edu/ – conjuntos de datos electorales (aunque solo 1984-1990)
[1] Los datos de geocodificación NLSY79 solo pueden ponerse a disposición de los usuarios que hayan completado con éxito una solicitud de geocodificación y hayan firmado un acuerdo de confidencialidad con la Oficina de Estadísticas Laborales de EE. UU. Si está interesado en obtener acceso a los datos de Geocode NLSY79, revise la información en http://stats.bls.gov/nls/nlsgeo7….
- ¿Cuál es la diferencia entre el científico de datos y el científico de investigación en Google?
- ¿Por qué tantos datos se vuelven 'oscuros'?
- ¿Cuál es el futuro de la ciencia de datos en los próximos años? ¿Cómo es el mercado laboral en ciencia de datos para los graduados de nivel de entrada? ¿Es fácil de aprender, o necesitamos hacer más y más trabajo duro para conseguir un trabajo de nivel de entrada?
- ¿Cómo es hacer programación científica en Haskell?
- Si WhatsApp no almacena mensajes, ¿cómo lo usa Facebook para la minería de datos?