Casi todos los conjuntos de datos “canónicos” se almacenan en UCI: UCI Machine Learning Repository: Data Sets
Es un repositorio bien curado y mantenido para varios conjuntos de datos con buena navegación según el tipo de problema.
Los conjuntos de datos de ImageNet son automáticamente “canónicos” porque se usan en una de las competencias más importantes en visión por computadora. Muchos artículos que lo presentan son finalmente aceptados por NIPS (la razón real no es el conjunto de datos en sí, obviamente, sino el hecho de que su investigación es increíble): competencia de reconocimiento visual a gran escala ImageNet (ILSVRC)
- ¿Cómo se pueden usar las redes neuronales recurrentes para predecir el género a partir de los nombres de pila?
- ¿Qué enfoque se recomienda para aprender Machine Learning?
- ¿Qué es el aprendizaje supervisado?
- ¿Dónde puedo encontrar artículos sobre los métodos utilizados para ganar las competencias de Kaggle?
- En LSTM, ¿cómo calculas qué tamaño deben tener los pesos?
Million Song Dataset | Scaling MIR Research: estándar para el reconocimiento de audio
MovieLens – clasificaciones para películas, diferentes escalas
Webscope | Yahoo Labs – Yahoo Datasets, siempre un buen punto de referencia ‘
http://wiki.dbpedia.org/Datasets DBPedia
Wikidata: descarga de la base de datos Wikidata
Sexto Taller EMNLP 2011 sobre traducción automática estadística: desafío de traducción automática, gran corpus, un estándar de oro para SMT y NMT en particular, pero a menudo utilizado para otros fines.