Cómo extraer contenido del sitio web con procesamiento de lenguaje natural

Hay dos partes:

1. Obtenga el contenido del sitio web

2. Analiza el contenido para extraer lo que quieres

¿Cuáles son algunos casos de mal uso de las redes neuronales?
¿Cómo afectarán herramientas como BigML y Google Prediction API al aprendizaje automático? ¿Reducirá la demanda de científicos de datos?
¿Qué es una red neuronal deconvolucional?
Debido a que este será el tema de un panel en el Instituto de Verano NBER, ¿qué puede aprender la economía de Data Science y / o Machine Learning, y qué puntos sobre este tema le gustaría ver incluidos?
¿Cómo soluciona un bosque aleatorio los problemas de regresión (no normalidad, heterocedasticidad, multicolinealidad, valores atípicos, valores faltantes y variables categóricas)?

1. Obtenga el contenido del sitio web

Si tiene una lista de páginas web que desea extraer, simplemente lea el contenido como lo haría con cualquier flujo de entrada.

Java

Pitón

Si tiene que rastrear varias páginas en el sitio web que no conoce de antemano, puede usar una herramienta como Scrapy . Si tiene una lista de sitios web enormes, puede consultar Apache Nutch .

2. Analiza el contenido para extraer lo que quieres

El contenido que reciba estará en HTML. Puede usar expresiones regulares para encontrar una sección particular de la página. Si el html es demasiado complejo para analizarlo, use herramientas como beautifulsoup (Python) o jsoup (Java) para analizarlo.

Las herramientas como scrapy contienen su propio mecanismo de análisis.

No hay PNL involucrado hasta ahora. La PNL llega más tarde cuando analiza el contenido DESPUÉS del paso 2 y desea encontrar cosas como qué nombres de personas están asociados a qué ciudades (Relaciones entre entidades), o qué enunciado está más cerca del contenido general de la página web (Resumen), etc.

Aprendizaje automáticoInteligencia ArtificialProcesamiento del lenguaje naturalProgramación informática

Related Content

¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?

Will Naive Bayes dará un buen resultado si el conjunto de entrenamiento es mucho más pequeño que el no. de características en un clasificador de aprendizaje automático?

¿Se utilizan algoritmos básicos de CS en el aprendizaje automático?

Dadas las variables / parámetros continuos, ¿cuál es la diferencia entre el aprendizaje automático y la interpolación?

Cómo aplicar mis conocimientos de aprendizaje automático para invertir en el mercado de valores indio

¿Por qué se requieren conocimientos de aprendizaje automático para un periodista de datos? ¿Por qué la exploración y visualización de datos por sí sola no es suficiente para el periodismo de datos?

¿Cómo se crean los softwares de inteligencia artificial como la asistencia de Google y Siri?

Supongo que la pregunta es hacer un rastreador genérico para extraer datos semiestructurados de múltiples sitios web (porque para rastrear un sitio web simplemente podría analizar con precisión el HTML con BeautifulSoup, ¿por qué elegir un método propenso a errores como NLP?

Sí. Usted podría hacerlo. Necesitará una gran cantidad de datos etiquetados en el formato con el que desea analizar HTML. Luego entrena un CRF o LSTM en la parte superior y supongo que obtendrás algo decente.

Aditya Joshi

Creo que puede usar la biblioteca Scrapy para rastrear el contenido del sitio web y procesar los datos y puede usarlo para su propósito.

Karthik Tsaliki

More Interesting

¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados?

¿Por qué Quora eligió a HackerRank como plataforma para organizar sus competiciones de ML en lugar de algún sitio más familiar como Kaggle?

¿Dónde puedo encontrar un conjunto de datos satelitales espaciales?

¿Cuál es la diferencia entre gaussiano y bayesiano?

En clasificación, ¿cómo manejas un conjunto de entrenamiento desequilibrado?

Cómo construir técnicas de aprendizaje automático para una aplicación móvil

¿Qué sugerencias le daría Roman Trusov a una persona que acaba de ingresar a ML?

¿Cómo funciona el aprendizaje automático en el comercio algorítmico (finanzas)?

# ¿Cómo puedo comenzar un trabajo de investigación sobre aprendizaje automático?

¿Por qué la inteligencia artificial se vuelve agresiva?

¿Qué nivel de experiencia en aprendizaje automático se espera de un científico de datos?

¿Existe algún informe publicado que haya aplicado con éxito el aprendizaje profundo para un sistema de recomendación basado en contenido de texto?

MLconf 2015 Seattle: ¿Cuándo uso la normalización de varianza media / unidad cero frente a la normalización de unidad L1 / L2?

¿Cuándo debería preferir los algoritmos de aprendizaje profundo a los algoritmos de aprendizaje automático poco profundos?

¿Qué 2 cursos entre estructuras de datos y algoritmos, diseño de software, introducción a IA, aprendizaje automático y sistemas operativos, debo elegir?

Web Analytics