Hay dos partes:
1. Obtenga el contenido del sitio web
2. Analiza el contenido para extraer lo que quieres
- ¿Cuáles son algunos casos de mal uso de las redes neuronales?
- ¿Cómo afectarán herramientas como BigML y Google Prediction API al aprendizaje automático? ¿Reducirá la demanda de científicos de datos?
- ¿Qué es una red neuronal deconvolucional?
- Debido a que este será el tema de un panel en el Instituto de Verano NBER, ¿qué puede aprender la economía de Data Science y / o Machine Learning, y qué puntos sobre este tema le gustaría ver incluidos?
- ¿Cómo soluciona un bosque aleatorio los problemas de regresión (no normalidad, heterocedasticidad, multicolinealidad, valores atípicos, valores faltantes y variables categóricas)?
1. Obtenga el contenido del sitio web
Si tiene una lista de páginas web que desea extraer, simplemente lea el contenido como lo haría con cualquier flujo de entrada.
Java
Pitón
Si tiene que rastrear varias páginas en el sitio web que no conoce de antemano, puede usar una herramienta como Scrapy . Si tiene una lista de sitios web enormes, puede consultar Apache Nutch .
2. Analiza el contenido para extraer lo que quieres
El contenido que reciba estará en HTML. Puede usar expresiones regulares para encontrar una sección particular de la página. Si el html es demasiado complejo para analizarlo, use herramientas como beautifulsoup (Python) o jsoup (Java) para analizarlo.
Las herramientas como scrapy contienen su propio mecanismo de análisis.
No hay PNL involucrado hasta ahora. La PNL llega más tarde cuando analiza el contenido DESPUÉS del paso 2 y desea encontrar cosas como qué nombres de personas están asociados a qué ciudades (Relaciones entre entidades), o qué enunciado está más cerca del contenido general de la página web (Resumen), etc.