Conjuntos de datos: ¿Cuáles son los principales corpus de texto utilizados por los lingüistas computacionales y los investigadores del procesamiento del lenguaje natural, y cuáles son las características / sesgos de cada corpus?

Treebanks y corpus anotados útiles para entrenar etiquetadoras POS, troceadores, analizadores, etc.

Banco Penn Tree (http://www.cis.upenn.edu/~treeba…)
WSJ Corpus (http://www.ldc.upenn.edu/Catalog…)
NEGRA corpus alemán (http://www.coli.uni-saarland.de/…)
Cuerpo de tigre (http://www.ims.uni-stuttgart.de/…)
alpino Treebank (http://odur.let.rug.nl/~vannoord…)
Bultreebank (http://www.bultreebank.org/)
Treebank de la Universidad de Turín (http://www.di.unito.it/~tutreeb/)
árbol de dependencia de Praga (http://ufal.mff.cuni.cz/pdt2.0/)

Relación semántica corpus anotado

propbank
Nombank (http://nlp.cs.nyu.edu/meyers/Nom…)
framenet (http://framenet.icsi.berkeley.edu/)
salsa (http://www.coli.uni-saarland.de/…)

Cuerpo de clasificación de texto

Conjunto de datos de Reuters (http://www.daviddlewis.com/resou…)
conjuntos de datos de grupos de noticias (http://people.csail.mit.edu/jren…)

cuerpo paralelo usado en la traducción automática

EMILE (http://www.lancs.ac.uk/fass/proj…)

Related Content

¿Hay una buena lista de ejemplos de cómo los problemas genéricos se convierten a MapReduce?

¿Cuál es la conexión entre un modelo probabilístico y un gráfico en un modelo gráfico probabilístico?

Análisis de sentimientos: ¿cuál es una manera simple de identificar palabras de sentimientos en una oración?

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Por qué utilizamos el CDF de distribución logística para calcular las probabilidades en la regresión logística?

¿Qué trabajo se ha hecho para aplicar la detección de nuevos eventos a eventos sociales en los que los usuarios estarían interesados (es decir, conciertos)?

¿Hay alguna API o aplicaciones web como Watson?

También agregaría el corpus marrón (aunque solo sea por su lugar en la historia).

Hay muchos corpus disponibles en el Kit de herramientas de lenguaje natural de Python (NLTK). Una lista está en:

http://nltk.googlecode.com/svn/t …

Alberto Bietti

Alguna compilación de listas de recursos corpora – Corpora

Alberto Bietti

More Interesting

¿Siguen siendo relevantes los enfoques simbólicos de IA después de los recientes éxitos del aprendizaje profundo?

¿Existe algún hardware especializado para algoritmos de aprendizaje profundo?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?

¿Cuánto tiempo debo pasar aprendiendo Python antes de pasar a otros aspectos de la ciencia de datos (análisis práctico, matemáticas, etc.)?

¿Debo aprender R o Spark para computación de alto rendimiento?

Cómo construir una aplicación de predicción de flujo de efectivo personal con extractos bancarios utilizando el aprendizaje automático

¿Qué cantidad de sistemas de recomendación se trata solo de usar el algoritmo correcto?

¿Cuáles son algunas aplicaciones del aprendizaje automático en la industria de la geología y la energía?

¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.

¿Cuál es la diferencia entre ML y NLP?

Cómo aprender el aprendizaje automático para crear aplicaciones

¿Qué significa que una modelo se sobreajuste?

¿Por qué las redes neuronales recurrentes no pueden ampliarse bien?

¿Aprendizaje automático sin historia matemática?

Durante la validación cruzada k-fold, ¿cuáles son algunas soluciones posibles cuando la varianza de las estimaciones de error de prueba es muy alta?

Web Analytics