Un enfoque simple sin requerir ningún dato etiquetado, y se puede hacer rápidamente, en comparación con el uso de modelos de secuencia como RNN, es usar palabras / frases importantes presentes en el documento como sus ideas principales. Este enfoque es primitivo ya que no genera ninguna sinopsis ni síntesis de documentos, solo identifica ideas clave en un documento en términos de frases / palabras presentes en el documento.
- Comience con los vectores de palabras word2vec generados en un corpus grande ( por ejemplo, Wikipedia ) y también con los documentos que necesitamos resumir. Lo ideal sería tener vectores generados para frases también (el kit de herramientas word2vec tiene un generador de frases word2 ). Github word2vec
- Calcule las magnitudes vectoriales desde el paso anterior: esta es solo una optimización simple para evitar volver a calcular cada vez.
- Tome cada documento y elija elegir aquellos vectores del paso anterior, que constituyen sus palabras / frases: ordénelas según la magnitud y elija las N palabras principales. Estas N palabras / frases son un resumen simple del documento.
- Para las N palabras principales, también se pueden elegir los K vecinos superiores para cada una de las N palabras anteriores, produciendo como máximo ideas relacionadas con K * N para ese documento ( puede ser menor que esto si hay superposición ).
Si el caso de uso requiere documentos que cobran vida con palabras potencialmente nuevas, utilice Fasttext fastText en lugar de word2vec para extraer rápidamente las ideas principales en vivo ( word2vec requeriría generar un modelo con el nuevo documento agregado, a menos que se use una versión incremental de word2vec. En esencia , sin volver a entrenar, no se abordará con palabras de vocabulario ). Con un modelo de entrenamiento inicial razonablemente grande, puede generar vectores para palabras que ve por primera vez, en función de lo cerca que estén de las palabras con ortografía similar.
- ¿Qué es una red neuronal convolucional?
- ¿Cuáles son las diferencias entre la red neuronal artificial (informática) y la red neuronal biológica?
- ¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?
- Procesamiento del lenguaje natural: ¿Hay alguna manera de medir la "informatividad" de una oración en un documento?
- ¿Cómo trata Google Translate u otra traducción en línea con palabras que no existen en el otro idioma?