¿Dónde puedo obtener una descripción de esquema de los datos de Microsoft Academic Graph?

A continuación se muestra la descripción detallada del contenido del conjunto de datos Microsoft Academic Graph – 2015/11/06

Este último conjunto de datos tiene cambios en los archivos como se indica a continuación en Microsoft

> Se agregaron nuevos artículos publicados desde el 20 de agosto

> Mejor combinación de papel

> La serie de conferencias se renombró a simplemente conferencias

El conjunto de datos está disponible en Microsoft Academic Graph – 2015/11/06

A continuación se muestran los contenidos del conjunto de datos. Los datos están disponibles en forma de archivos zip. Hay en los 12 archivos zip, cada uno de los cuales contiene un conjunto de datos enorme específico de topcs como sugiere el nombre del archivo zip.

Nombre de archivo de tamaño

303.4K Affiliations.zip

1.4G Authors.zip

3.5M ConferenceInstances.zip

30.7K Conferences.zip

725.7K FieldsOfStudy.zip

380.0K Journals.zip

27.7G MicrosoftAcademicGraph.zip

4.0G PaperAuthorAffiliations.zip

1.7G PaperKeywords.zip

6.9G PaperReferences.zip

5.3G PaperUrls.zip

8.4G Papers.zip

Ahora MicrosoftAcademicGraph.zip contiene todos los archivos .txt juntos. Sin embargo, dado que el tamaño del archivo es muy grande, por lo tanto, Microsoft ha proporcionado archivos zip separados para cada uno de los archivos en MicrosoftAcademicGraph.zip. Esto se hace para permitir la descarga del conjunto de datos en partes

Cada archivo zip también contiene 3 archivos:

1. .txt

2. license.txt

3. readme.txt

los archivos 2 y 3 anteriores son iguales en todos los archivos zip.

En el archivo Léame, la estructura de los datos se da en forma de archivo y columnas en cada archivo. He pegado el archivo Léame a continuación para obtener detalles de cada archivo. También se incluyen un par de líneas de muestra de cada archivo para tener una idea del conjunto de datos y echar un vistazo.

Todos los archivos de texto tienen columnas de datos separadas por tabulaciones.

################################################## ######################################

#Archivo

# Número de columna Descripción de la columna

# Líneas de muestra:

################################################## ######################################

Afiliaciones

1 ID de afiliación

2 Nombre de afiliación

Líneas de muestra:

0011EAC4 universidad del sur de california

00321B8C Thomas College

00431A5E mujer s medical college de pennsylvania

################################################## ######################################

Autores

1 ID de autor

2 Nombre del autor

Líneas de muestra:

000006D2 franck barillaud

00004783 bo ekehammar

00005BFC william s davidsonii

00007120 erik sadolin

0034D844 久 三郎 広 島 M

0034F31C edoardo grebloM

################################################## ######################################

ConferenceSeries

1 ID de la serie de conferencias

2 Nombre corto (abreviatura)

3 Nombre completo

Líneas de muestra:

4333BBB9 AISM Conferencia de gestión de seguridad de la información de Australia

439E92D8 DAIS Aplicaciones distribuidas y sistemas interoperables

43CD1EFB ADBIS Avances en bases de datos y sistemas de información

43FD0CAC Conferencia Internacional ICCL sobre Logística Computacional

44195980 Enfoques algorítmicos ATMOS para modelado, optimización y sistemas de transporte

44250E28 Sistemas y robots inteligentes IROS

################################################## ######################################

ConferenciaInstancias

1 ID de la serie de conferencias

2 ID de instancia de conferencia

3 Nombre corto (abreviatura)

4 Nombre completo

5 Ubicación

6 URL oficial de la conferencia

7 Fecha de inicio de la conferencia

8 Fecha de finalización de la conferencia

9 Fecha de inscripción del resumen de la conferencia

10 Fecha límite para la presentación de la conferencia

11 Fecha de vencimiento de la notificación de la conferencia

12 Fecha final de la versión final de la conferencia

Líneas de muestra:

42C7B402 07426D09 WSDM 2012 WSDM 2012: WSDM – Conferencia internacional sobre búsqueda web y minería de datos Seattle, WA Búsqueda web y minería de datos (WSDM) 2012 2012/02/08 2012/02/12 2011/08/04 2011/08/11 2011 / 10/26

42CCC198 26400783 HiPEAC 2015 HiPEAC 2015 – 10ª Conferencia internacional sobre alto rendimiento y arquitecturas integradas y compiladores (HiPEAC’2015) Amsterdam, Países Bajos – Reino de los Países Bajos Conferencia HiPEAC 2015 2015/01/19 2015/01/21 2014/06/01

42CCF5DE 0A971F98 ISLPED 2011 ISLPED 2011: Simposio internacional sobre electrónica y diseño de baja potencia Fukuoka, Japón ISLPED ’16 2011/08/01 2011/08/03 2011/03/07

42D4CF15 248DD0F5 ICTAC 2015 ICTAC 2015: 12 ° Coloquio internacional sobre aspectos teóricos de la computación Cali, Colombia ICTAC 2015: 12 ° Coloquio internacional sobre aspectos teóricos de la computación, Cali – Colombia 2015/10/29 2015/10/31 2015/06/01 2015 / 06/05 2015/07/20 2015/08/03

430D9705 02E32230 ISSTA 2013 ISSTA 2013: Simposio internacional sobre pruebas y análisis de software Lugano, Suiza http://issta2013.inf.usi.ch/ 2013/07/15 2013/07/20 2013/01/25 2013/05/06 2013 / 05/31

433DEF3A 2621D84E ICCAD 2014 ICCAD 2014: Conferencia internacional sobre diseño asistido por computadora San Jose 2014/11/03 2014/11/06 2014/04/07 2014/04/14

################################################## ######################################

Campos de estudio

1 ID del campo de estudio

2 Nombre del campo de estudio

Líneas de muestra:

0000109A Función de signo

Partición 0000A73C

00047B8D Detección de pasos

0004C188 Complejidad del tiempo

0006D35F Caso índice

001469B0 Facilitación

################################################## ######################################

Revistas

1 ID de diario

2 Nombre del diario

Líneas de muestra:

03680F2F The Economist

085C135E Revista de Química Biológica

09256644 Geografía urbana

02918BD4 Investigación del genoma

06EDDA42 Circulación

################################################## ######################################

Papeles

1 ID de papel

2 Título del artículo original

3 Título de papel normalizado

4 Publicación en papel año

5 Fecha de publicación en papel

6 Identificador de objeto de documento en papel (DOI)

7 Nombre original del lugar

8 Nombre del lugar normalizado

9 ID de revista asignada al nombre del lugar

10 ID de la serie de conferencias asignadas al nombre del lugar

11 rango de papel

Líneas de muestra:

02670325 Mejora personal incremental para el aprendizaje de refuerzo multiagente de por vida Mejora personal incremental para el aprendizaje de refuerzo multiagente de por vida 1996 Simulación del comportamiento adaptativo sab 42B9FC1C 16515

5BE761FA Generación adaptativa de narrativas interactivas basadas en dilemas generación adaptativa de narrativas interactivas basadas en dilemas 2007 2007 10.1007 / 978-3-540-72705-7_2 Simulación del comportamiento adaptativo sab 42B9FC1C 19509

04501F2C Relaciones sociales sintéticas en personajes virtuales animados relaciones sociales sintéticas en personajes virtuales animados 2002 2002/09/24 Simulación de comportamiento adaptativo sab 42B9FC1C 19551

5A32C194 Acondicionamiento de segundo orden en los núcleos subcorticales del sistema límbico Acondicionamiento de segundo orden en los núcleos subcorticales del sistema límbico 2008 2008/07/07 10.1007 / 978-3-540-69134-1_19 Simulación del comportamiento adaptativo sab 42B9FC1C 19596

14214326 Una arquitectura de control de comportamiento basada en activación para máquinas de caminar una arquitectura de control de comportamiento basada en activación para máquinas de caminar 2002 2002/09/24 Simulación de comportamiento adaptativo sab 42B9FC1C 17382

################################################## ######################################

PaperAuthorAffiliations

1 ID de papel

2 ID del autor

3 ID de afiliación

4 Nombre de afiliación original

5 Nombre de afiliación normalizado

6 Número de secuencia del autor

Líneas de muestra:

5C126CA8 6E38ECD7 04728696 Quest Diagnostics, Nichols Institute, San Juan Capistrano, California quest diagnostics 1

59C6BAB0 6E492111 04728696 Quest Diagnostics Nichols Institute, San Juan Capistrano, CA 92690, EE. UU. Diagnóstico de búsqueda 12

5862F7C3 6DC9E200 04728696 Quest Diagnostics, 3 Giralda Farms, Madison, NJ, Estados Unidos de América quest diagnostics 3

10D629BE 6FA73AE9 04728696 Diagnóstico de búsqueda, diagnóstico de búsqueda de Alameda y San Juan Capistrano 3

5A7C26B4 6FC77945 04728696 AmeriPath / Quest Diagnostics Dallas Texas Quest Diagnostics 1

################################################## ######################################

PaperKeywords

1 ID de papel

2 Nombre de palabra clave

3 ID del campo de estudio asignado a la palabra clave

Líneas de muestra:

000001EB cáncer rectal 1F666B5A

00000412 química 0B0FEB68

000006E3 estudio cualitativo 0B56F5FA

00000F4B sistema de producción 07E221DB

0000135C planificación 05A01F3D

################################################## ######################################

PaperReferences

1 ID de papel

2 ID de referencia del papel

Líneas de muestra:

000000A3 619CE22C

000000A3 6CD617A9

0000011D 6B5946B4

0000013A 588A4926

000001F8 5B521D2E

################################################## ######################################

PaperUrls

1 ID de papel

2 URL

Líneas de muestra:

42B7F30A Estudio sobre la expresión de la proteína HERG en la célula A549 y su importancia clínica

5FE67EEF Estudios experimentales y de simulación por computadora de sistemas ópticos centrados

5FE67EEF Estudios experimentales y de simulación por computadora de sistemas ópticos centrados

5FE67EEF Estudios experimentales y de simulación por computadora de sistemas ópticos centrados

01DF4956 Radio: Radio San Sebastián