¿Cuáles son las mejores herramientas para la minería de datos en Internet? ¿Qué debo usar para configurar un evento automático / alerta de tendencia?

1. jq – sed para JSON
Convierte los datos JSON recuperados a través de curl en algo fácilmente legible

2. json2csv – convierte JSON a CSV
Otro convertidor JSON a CSV simple para que pueda usar más fácilmente `cut -d`,` awk -F`, `grep`,` sed` e incluso `csvkit`.

3. scrape – extracción HTML usando selectores XPath o CSS
Script de Python para cortar y cortar HTML

4. xml2json: convierte XML a JSON
No es necesario construir controladores de datos XML y JSON separados. Convierta todo a JSON y vaya desde allí.

5. Clásicos: `awk`,` grep` y `sed`
Si no está roto

6. Cron
Para “configurar una alerta automática de eventos / tendencias”, considere una secuencia de comandos de shell para usar las herramientas anteriores para identificar los datos que busca y activar regularmente esta secuencia de comandos usando `cron`.

Para obtener más información sobre estas estrategias, eche un vistazo al blog de Jeroen Janssens.