Cómo extraer contenido del sitio web con procesamiento de lenguaje natural

Hay dos partes:

1. Obtenga el contenido del sitio web

2. Analiza el contenido para extraer lo que quieres

1. Obtenga el contenido del sitio web

Si tiene una lista de páginas web que desea extraer, simplemente lea el contenido como lo haría con cualquier flujo de entrada.

Java

Pitón

Si tiene que rastrear varias páginas en el sitio web que no conoce de antemano, puede usar una herramienta como Scrapy . Si tiene una lista de sitios web enormes, puede consultar Apache Nutch .

2. Analiza el contenido para extraer lo que quieres

El contenido que reciba estará en HTML. Puede usar expresiones regulares para encontrar una sección particular de la página. Si el html es demasiado complejo para analizarlo, use herramientas como beautifulsoup (Python) o jsoup (Java) para analizarlo.

Las herramientas como scrapy contienen su propio mecanismo de análisis.

No hay PNL involucrado hasta ahora. La PNL llega más tarde cuando analiza el contenido DESPUÉS del paso 2 y desea encontrar cosas como qué nombres de personas están asociados a qué ciudades (Relaciones entre entidades), o qué enunciado está más cerca del contenido general de la página web (Resumen), etc.

Supongo que la pregunta es hacer un rastreador genérico para extraer datos semiestructurados de múltiples sitios web (porque para rastrear un sitio web simplemente podría analizar con precisión el HTML con BeautifulSoup, ¿por qué elegir un método propenso a errores como NLP?

Sí. Usted podría hacerlo. Necesitará una gran cantidad de datos etiquetados en el formato con el que desea analizar HTML. Luego entrena un CRF o LSTM en la parte superior y supongo que obtendrás algo decente.

Creo que puede usar la biblioteca Scrapy para rastrear el contenido del sitio web y procesar los datos y puede usarlo para su propósito.

More Interesting

¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados?

¿Por qué Quora eligió a HackerRank como plataforma para organizar sus competiciones de ML en lugar de algún sitio más familiar como Kaggle?

¿Dónde puedo encontrar un conjunto de datos satelitales espaciales?

¿Cuál es la diferencia entre gaussiano y bayesiano?

En clasificación, ¿cómo manejas un conjunto de entrenamiento desequilibrado?

Cómo construir técnicas de aprendizaje automático para una aplicación móvil

¿Qué sugerencias le daría Roman Trusov a una persona que acaba de ingresar a ML?

¿Cómo funciona el aprendizaje automático en el comercio algorítmico (finanzas)?

# ¿Cómo puedo comenzar un trabajo de investigación sobre aprendizaje automático?

¿Por qué la inteligencia artificial se vuelve agresiva?

¿Qué nivel de experiencia en aprendizaje automático se espera de un científico de datos?

¿Existe algún informe publicado que haya aplicado con éxito el aprendizaje profundo para un sistema de recomendación basado en contenido de texto?

MLconf 2015 Seattle: ¿Cuándo uso la normalización de varianza media / unidad cero frente a la normalización de unidad L1 / L2?

¿Cuándo debería preferir los algoritmos de aprendizaje profundo a los algoritmos de aprendizaje automático poco profundos?

¿Qué 2 cursos entre estructuras de datos y algoritmos, diseño de software, introducción a IA, aprendizaje automático y sistemas operativos, debo elegir?