Cómo descargar el conjunto de datos para el resumen de texto extractivo

Trabajos recientes en resumen de texto extractivo están utilizando la CNN y corpus diarios. Un examen exhaustivo de este conjunto de datos y experimentos están disponibles aquí: danqi / rc-cnn-dailymail. Este enlace apunta a otros dos enlaces: deepmind / rc-data (el conjunto de datos original) y DMQA (forma más fácil de obtener los datos). Desde estos enlaces y si lee este documento: https://arxiv.org/pdf/1606.02858…, comprenderá que la CNN, los artículos de noticias por correo diario contienen viñetas resumidas, que puede tratar como resúmenes. En otras palabras, los artículos originales son su texto y las viñetas son sus resúmenes estándar de oro. Puede usar estos conjuntos de datos para sus experimentos de resumen de extracción. Como ejemplo, puede consultar este documento reciente que utilizó este conjunto de datos: https://arxiv.org/pdf/1611.04230….

Trabajos anteriores sobre el resumen de conjuntos de datos ampliamente utilizados de DUC (Document Understanding Conferences – Data Past) y TAC (Text Analysis Conference (TAC) Data). Para obtener acceso a estos conjuntos de datos, debe seguir las pautas mencionadas en estos enlaces y hacer algunos trámites. Espero que estos ayuden!

Aprendizaje automáticoConjuntos de datosProcesamiento de lenguaje natural

Related Content

¿Qué técnicas utilizadas en el procesamiento del lenguaje natural son aplicables a otras áreas del aprendizaje automático?

Cómo entrenar un modelo word2vec como GoogleNews-vectors-negative300.bin para francés

¿Cuál es una explicación intuitiva para el problema de optimización cuadrática?

¿Cuál es la diferencia entre los ingenuos Bayes y los algoritmos de máquina de vectores de soporte?

¿Es posible que una máquina de IA en el futuro descubra o pruebe una ley de la naturaleza por sí misma?

¿Cuál es la diferencia entre la Nikon D5000 y la D5100?

¿Necesito ser un analista de datos para obtener un trabajo en el campo de aprendizaje automático?

More Interesting

¿Cuáles son las principales áreas de la investigación bioinformática actual?

¿Crees que la investigación universal de perturbaciones adversas es justa en las redes neuronales profundas?

¿Qué es un modelo de mezcla de Bernoulli?

¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?

¿Dónde puedo encontrar algunas empresas que trabajen con técnicas de aprendizaje automático y minería de datos, en el campo biomédico?

¿Qué es una descripción general del aprendizaje de múltiples núcleos (MKL)?

¿El sobreajuste en un conjunto de datos implica que el modelo realmente puede aprender y generalizar sobre ese conjunto de datos, pero desafortunadamente demasiado entrenado?

Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?

Soy candidato a doctorado en una universidad en Irán, tengo experiencias en PNL persa, Spark, Hadoop y aprendizaje profundo. ¿Tengo alguna posibilidad de ingresar a Google?

¿Qué industria utiliza una máquina de granallado?

Si alguien sin experiencia en programación quisiera aprender algoritmos y aprendizaje automático, ¿cuáles serían las mejores fases de estudio e investigación? ¿Sería mejor comenzar con el aprendizaje de la codificación? ¿Con qué idioma es mejor comenzar?

¿Cuál es la diferencia entre máquinas de vectores de soporte y aprendizaje profundo?

¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

¿Los humanos son actualizadores bayesianos?

¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?

Web Analytics