¿Cuáles son las mejores herramientas de minería de datos web gratuitas automatizadas?

Utilicé el tándem de scrapy [1] y BeautifulSoup [2] para raspar grandes cantidades de datos estructurados, al igual que los grandes chicos de leadGenius [3]. Estoy de acuerdo con Ward en que no hay servicio gratuito a menos que esté contento con consultar los grandes gráficos de conocimiento previo a la mente que existen [4].
Sin embargo, unir una solución FOSS es viable si tiene un objetivo bien definido. Por lo general, un proyecto de minería de datos implica algunos trucos específicos de todos modos, por lo que las herramientas comerciales también tienen una curva de aprendizaje. Puedes echar un vistazo al código fuente que involucra algunos de esos trucos para el proyecto que mencioné antes [5].

[1] Un marco rápido y potente de raspado y rastreo web
[2] http://www.crummy.com/software/B…
[3] Página en leadgenius.com y la gran presentación de Anand Kulkarni para ventas impulsadas por datos que escalan: construyendo IA que vende
[4] Por ejemplo, Max-Planck-Institut für Informatik: YAGO y DBpedia
[5] ahirner / py-cf-crawl

1. R

R es un lenguaje o un entorno libre para computación estadística y gráficos. Se ha hecho accesible desde lenguajes de script como Python, Ruby, Perl, etc.

Sistemas operativos compatibles: plataformas UNIX, Windows, MacOS

Área de minería web : minería de uso web

2. Octoparse

Octoparse es una herramienta de minería de datos web simple pero potente que automatiza la extracción de datos web. Le permite crear reglas de extracción altamente precisas. Los rastreadores que se ejecutan en Octoparse están determinados por las reglas configuradas. La regla de extracción le diría a Octoparse: qué sitio web debe estar abierto; dónde están los datos que planea rastrear; qué tipo de datos desea, etc.

Sistemas operativos compatibles: Windows XP / 7/8/10
Área de minería web : minería de contenido web

3. Oracle Data Mining (ODM)

Oracle Data Mining es un software de minería de datos de Oracle. Oracle Data Mining se implementa en el núcleo OracleDatabase, y los modelos de minería son objetos de base de datos de primera clase. Los procesos de Oracle Data Mining utilizan características integradas de OracleDatabase para maximizar la escalabilidad y hacer un uso eficiente de los recursos del sistema.

Sistemas operativos compatibles: Microsoft Windows
Área de minería web : minería de uso web

– Ver más en: 7 herramientas de minería web en la web

Necesitas definir mejor gratis. Porque muchos enfoques consumirán días o semanas de tu tiempo. Aunque no necesitaba proporcionar una tarjeta de crédito, ¿era gratis? Ese sería mi problema con cosas como “R”.

Muchas veces, las soluciones gratuitas proporcionarán información inadecuada, donde esperan que usted se venda más.

A veces, las soluciones gratuitas infringen los Términos de servicio para Faceook, Twitter, etc. No limitan la velocidad adecuada, eliminan la pantalla, todo lo cual podría hacer que su cuenta sea bloqueada.

Así que estoy de acuerdo con Dave Mansfield, otra persona que respondió. Gratis no es gratis, a menos que proporcione la información que desea en un esfuerzo mínimo y oportuno, y eso es muy raro.

Hay cientos de herramientas y servicios de minería de datos que encontrará en línea. Las herramientas ScraperWorld Scraper son excelentes para el raspado de datos y ofrecen buenas funciones de automatización. Estas herramientas ofrecen técnicas rápidas de raspado de datos y proporcionan datos basados ​​en su búsqueda. También guarda datos automáticamente en su base de datos en su formato de archivo de datos preferido.
Proporciona increíbles herramientas de raspado de datos que me funcionan muy bien para generar leads desde mis sitios web específicos.

R se puede utilizar como una herramienta de análisis de datos y minería de datos.
Si quieres aprender R, tienen R studio para aprendizaje interactivo, que es muy bueno.
Puedes descargar R aquí
https://cran.r-project.org/bin/w