Conjuntos de datos: ¿Cuáles son los principales corpus de texto utilizados por los lingüistas computacionales y los investigadores del procesamiento del lenguaje natural, y cuáles son las características / sesgos de cada corpus?

Treebanks y corpus anotados útiles para entrenar etiquetadoras POS, troceadores, analizadores, etc.

  1. Banco Penn Tree (http://www.cis.upenn.edu/~treeba…)
  2. WSJ Corpus (http://www.ldc.upenn.edu/Catalog…)
  3. NEGRA corpus alemán (http://www.coli.uni-saarland.de/…)
  4. Cuerpo de tigre (http://www.ims.uni-stuttgart.de/…)
  5. alpino Treebank (http://odur.let.rug.nl/~vannoord…)
  6. Bultreebank (http://www.bultreebank.org/)
  7. Treebank de la Universidad de Turín (http://www.di.unito.it/~tutreeb/)
  8. árbol de dependencia de Praga (http://ufal.mff.cuni.cz/pdt2.0/)

Relación semántica corpus anotado

  1. propbank
  2. Nombank (http://nlp.cs.nyu.edu/meyers/Nom…)
  3. framenet (http://framenet.icsi.berkeley.edu/)
  4. salsa (http://www.coli.uni-saarland.de/…)

Cuerpo de clasificación de texto

  1. Conjunto de datos de Reuters (http://www.daviddlewis.com/resou…)
  2. conjuntos de datos de grupos de noticias (http://people.csail.mit.edu/jren…)

cuerpo paralelo usado en la traducción automática

  1. EMILE (http://www.lancs.ac.uk/fass/proj…)

También agregaría el corpus marrón (aunque solo sea por su lugar en la historia).

Hay muchos corpus disponibles en el Kit de herramientas de lenguaje natural de Python (NLTK). Una lista está en:

http://nltk.googlecode.com/svn/t

Alguna compilación de listas de recursos corpora – Corpora