¿Dónde puedo obtener más información sobre los métodos y algoritmos informáticos que coinciden y resumen diferentes partes del texto?

Fundamentos del procesamiento estadístico del lenguaje natural
http://amzn.to/bQce4J

Hay varios libros, pero me gusta este para comenzar. Hacia el final del libro hay información sobre sistemas de resumen automático. El campo está cambiando rápidamente y no hay nada tan actualizado como la literatura y los marcos de software de código abierto, pero este libro establece una buena base para encontrar los nombres de los algoritmos que necesita para realizar tareas de procesamiento de lenguaje natural.

Sin embargo, muchas personas prefieren este libro por alguna razón;
Procesamiento de voz y lenguaje https://amzn.to/bO4Ebj

No lo he leído personalmente, pero me han dicho que es más denso, cubre más temas en profundidad y tiene los ejemplos de código que necesita para implementar sistemas de trabajo. No estoy seguro de si alguna de estas cosas es cierta.

Procesamiento de lenguaje natural con Pythonhttp: //amzn.to/bSvGDw

Disfruté leyendo este libro y aprendí un poco de Python y algo de lingüística, sin embargo, no estoy seguro de haber aprendido cómo hacer algo útil. Sin embargo, es un buen libro.

Programación de la inteligencia colectiva: creación de aplicaciones Web 2.0 inteligentes http://amzn.to/d7gL2s

Este es otro gran libro sobre Python. Tiene algo de procesamiento de lenguaje natural, pero se limita principalmente a la bolsa de palabras y métodos espectrales como la factorización de matriz no negativa. Tiene muchos ejemplos de código y es un placer leerlo. A menudo copio y pego el código de este libro para obtener algunos raspados de fuentes RSS y cosas de PNL que funcionan muy rápidamente.

AlgoritmosAprendizaje automáticoBúsqueda de preguntasLenguajes de programaciónMinería de datosProcesamiento de lenguaje naturalProgramación informática

¿El aprendizaje supervisado se usa más?

¿Las redes de cápsulas reemplazarán a las redes neuronales?

¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?

¿Cuáles son algunos buenos indicadores para ideas de proyectos en biología computacional?

¿Hay otros ejemplos de algoritmos de PNL que escriben libros publicados?

¿Cuál es una buena manera de clasificar los documentos de texto contra un modelo de tema arbitrario?

Puede consultar http://www.cs.cmu.edu/~nasmith/L … para obtener una descripción general de los métodos de resumen. Especialmente prefiero el resumen basado en gráficos LexRank (www.jair.org/media/1523/live-1523-2354-jair.pdf). La idea es simple: construir un gráfico con oraciones como nodos y distancia de oraciones como bordes dirigidos y luego seleccionar la mayoría de las oraciones clasificadas por páginas en este gráfico. La distancia entre oraciones suele ser coseno TfIdf. Entonces tienes oraciones que describen los conceptos más centrales en el texto.

Yura Koroliov

Para la parte de “correspondencia”, examinaría el trabajo sobre la vinculación textual, por ejemplo, Dagan 2004 y posteriores ( http://j.mp/daganpub ), así como los métodos de alineación tradicionales en la traducción automática.

Yura Koroliov

More Interesting

¿Cuáles son las formas previas para el reconocimiento en visión artificial?

¿Cuáles son algunos consejos generales sobre selección de características e ingeniería que todo científico de datos debe saber?

¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?

¿Qué es la indexación semántica latente?

¿Cuáles son las consecuencias de usar la función de error del tren [matemáticas] \ min_ {f \ in \ mathcal {H}} \ max_ {i \ in \ {1… N \}} \ | f (x ^ {(i)}) - y ^ {(i)} \ | ^ 2 [/ math] en lugar del error de tren medio empírico estándar para Machine Learning?

¿Cuál es la diferencia entre pre-entrenamiento y pre-procesamiento?

¿Hay alguna API o aplicaciones web como Watson?

Cómo probar un conjunto de datos no se puede clasificar

La pérdida (entropía cruzada) está disminuyendo, pero la precisión sigue siendo la misma durante el entrenamiento de redes neuronales convolucionales. Como puede suceder

¿Hay alguna trampa en los recientes anuncios de Microsoft e IBM sobre los avances en el reconocimiento de voz?