¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

Casi todos los conjuntos de datos “canónicos” se almacenan en UCI: UCI Machine Learning Repository: Data Sets

Es un repositorio bien curado y mantenido para varios conjuntos de datos con buena navegación según el tipo de problema.

Los conjuntos de datos de ImageNet son automáticamente “canónicos” porque se usan en una de las competencias más importantes en visión por computadora. Muchos artículos que lo presentan son finalmente aceptados por NIPS (la razón real no es el conjunto de datos en sí, obviamente, sino el hecho de que su investigación es increíble): competencia de reconocimiento visual a gran escala ImageNet (ILSVRC)

Million Song Dataset | Scaling MIR Research: estándar para el reconocimiento de audio

MovieLens – clasificaciones para películas, diferentes escalas

Webscope | Yahoo Labs – Yahoo Datasets, siempre un buen punto de referencia ‘

http://wiki.dbpedia.org/Datasets DBPedia

Wikidata: descarga de la base de datos Wikidata

Sexto Taller EMNLP 2011 sobre traducción automática estadística: desafío de traducción automática, gran corpus, un estándar de oro para SMT y NMT en particular, pero a menudo utilizado para otros fines.