Trabajos recientes en resumen de texto extractivo están utilizando la CNN y corpus diarios. Un examen exhaustivo de este conjunto de datos y experimentos están disponibles aquí: danqi / rc-cnn-dailymail. Este enlace apunta a otros dos enlaces: deepmind / rc-data (el conjunto de datos original) y DMQA (forma más fácil de obtener los datos). Desde estos enlaces y si lee este documento: https://arxiv.org/pdf/1606.02858…, comprenderá que la CNN, los artículos de noticias por correo diario contienen viñetas resumidas, que puede tratar como resúmenes. En otras palabras, los artículos originales son su texto y las viñetas son sus resúmenes estándar de oro. Puede usar estos conjuntos de datos para sus experimentos de resumen de extracción. Como ejemplo, puede consultar este documento reciente que utilizó este conjunto de datos: https://arxiv.org/pdf/1611.04230….
Trabajos anteriores sobre el resumen de conjuntos de datos ampliamente utilizados de DUC (Document Understanding Conferences – Data Past) y TAC (Text Analysis Conference (TAC) Data). Para obtener acceso a estos conjuntos de datos, debe seguir las pautas mencionadas en estos enlaces y hacer algunos trámites. Espero que estos ayuden!
- Como principiante en el procesamiento del lenguaje natural, ¿desde dónde debo comenzar?
- ¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?
- ¿Cuál es la relación entre un modelo múltiple que interactúa y un filtro de Kalman?
- ¿Debería considerarse un experto en aprendizaje automático después de completar la clase de ML del profesor Andrew en Coursera?
- ¿Cómo deciden las personas en aprendizaje profundo qué artículos no leer?