Cómo usar el procesamiento del lenguaje natural (PNL) para resumir un documento en una serie de ideas principales

Un enfoque simple sin requerir ningún dato etiquetado, y se puede hacer rápidamente, en comparación con el uso de modelos de secuencia como RNN, es usar palabras / frases importantes presentes en el documento como sus ideas principales. Este enfoque es primitivo ya que no genera ninguna sinopsis ni síntesis de documentos, solo identifica ideas clave en un documento en términos de frases / palabras presentes en el documento.

  • Comience con los vectores de palabras word2vec generados en un corpus grande ( por ejemplo, Wikipedia ) y también con los documentos que necesitamos resumir. Lo ideal sería tener vectores generados para frases también (el kit de herramientas word2vec tiene un generador de frases word2 ). Github word2vec
  • Calcule las magnitudes vectoriales desde el paso anterior: esta es solo una optimización simple para evitar volver a calcular cada vez.
  • Tome cada documento y elija elegir aquellos vectores del paso anterior, que constituyen sus palabras / frases: ordénelas según la magnitud y elija las N palabras principales. Estas N palabras / frases son un resumen simple del documento.
  • Para las N palabras principales, también se pueden elegir los K vecinos superiores para cada una de las N palabras anteriores, produciendo como máximo ideas relacionadas con K * N para ese documento ( puede ser menor que esto si hay superposición ).

Si el caso de uso requiere documentos que cobran vida con palabras potencialmente nuevas, utilice Fasttext fastText en lugar de word2vec para extraer rápidamente las ideas principales en vivo ( word2vec requeriría generar un modelo con el nuevo documento agregado, a menos que se use una versión incremental de word2vec. En esencia , sin volver a entrenar, no se abordará con palabras de vocabulario ). Con un modelo de entrenamiento inicial razonablemente grande, puede generar vectores para palabras que ve por primera vez, en función de lo cerca que estén de las palabras con ortografía similar.

Mediante el uso de la minería de argumentos. Se trata de detectar un reclamo en un texto no estructurado y luego identificar el párrafo de soporte del reclamo.

Por ejemplo, la afirmación en un artículo podría ser: “La inmigración es algo bueno para la economía de un país”. A partir de ahí, debes encontrar el soporte. Significa la parte del texto que dice que “la inmigración contribuye a un aumento del 5% del PIB, etc.”

La minería de argumentos (o argumentación) tiene muchas aplicaciones y una de las más interesantes es la inteligencia artificial para el razonamiento legal. Se trata de sustituir a los legisladores con algoritmos. Debería costar mucho menos contratar una computadora para defenderlo en el tribunal en lugar de un abogado altamente pagado high

También debería acelerar el proceso del tribunal que en muchos países (Italia, por ejemplo) lleva mucho tiempo.

Se pueden ver algunos documentos interesantes sobre la minería de argumentos siguiendo esos enlaces:

http://cmna.csc.liv.ac.uk/CMNA14

http://homepages.abdn.ac.uk/n.or

http://www.aclweb.org/anthology/

http://www.aclweb.org/anthology/

¿No puedes procesar el lenguaje en tu cabeza? ¿Es esta una tarea de codificación?

De todos modos, necesita un buen material de estudio sobre PNL que enseñe PNL y no pierda tiempo haciéndolo.

Puede intentar extraer oraciones importantes del texto para encontrar ideas principales (agrupamiento) o usar el modelado de temas (LSA, LDA) para encontrar ideas importantes basadas en los temas

More Interesting

¿Cuál es el lenguaje más utilizado para el aprendizaje automático en la industria?

¿Cuáles serán los casos de uso de aprendizaje automático más grandes de 2017?

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

¿Es posible crear sistemas de recomendación combinando datos de Twitter / Facebook y datos de preferencia del cliente? Si es así, ¿con qué herramientas?

¿Cuáles son algunos marcos de aprendizaje profundo con solo CPU?

¿Cuáles son las falacias comunes de minería de datos?

¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

¿Cuál sería su guía para un hombre de 46 años que conoce la programación primaria y está interesado en obtener un conocimiento práctico del aprendizaje automático?

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?

¿Se puede resolver el problema de cauvery utilizando algoritmos de aprendizaje automático?

¿Cuál es la diferencia entre los datos de entrenamiento y los datos de prueba?

¿Qué le parece más interesante: el análisis de series temporales o el aprendizaje automático? ¿Por qué?

¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?

¿Cuál es más eficiente para los algoritmos de reconocimiento facial, PCA o LDA?

¿Qué es el preprocesamiento de audio?