¿Cuáles son las mejores herramientas de minería de datos web gratuitas automatizadas?

Utilicé el tándem de scrapy [1] y BeautifulSoup [2] para raspar grandes cantidades de datos estructurados, al igual que los grandes chicos de leadGenius [3]. Estoy de acuerdo con Ward en que no hay servicio gratuito a menos que esté contento con consultar los grandes gráficos de conocimiento previo a la mente que existen [4].
Sin embargo, unir una solución FOSS es viable si tiene un objetivo bien definido. Por lo general, un proyecto de minería de datos implica algunos trucos específicos de todos modos, por lo que las herramientas comerciales también tienen una curva de aprendizaje. Puedes echar un vistazo al código fuente que involucra algunos de esos trucos para el proyecto que mencioné antes [5].

[1] Un marco rápido y potente de raspado y rastreo web
[2] http://www.crummy.com/software/B…
[3] Página en leadgenius.com y la gran presentación de Anand Kulkarni para ventas impulsadas por datos que escalan: construyendo IA que vende
[4] Por ejemplo, Max-Planck-Institut für Informatik: YAGO y DBpedia
[5] ahirner / py-cf-crawl

¿Qué porcentaje de una muestra proporciona suficiente análisis de datos?

¿Cuáles son algunos problemas de aprendizaje automático que se resolvieron con soluciones generativas en lugar de soluciones discriminatorias?

¿Cómo debe un estudiante de CS sin experiencia obtener destreza en Machine Learning / Data Science?

¿Menos marcas en IA afectarán mis posibilidades de admisión a un curso de maestría en ciencias de datos en una universidad estadounidense de renombre?

¿Qué habilidades de análisis de datos requieren las grandes consultoras?

¿Qué tan difícil es transferirse del MIT a Carnegie Mellon para obtener una licenciatura en ciencias de la computación?

1. R

R es un lenguaje o un entorno libre para computación estadística y gráficos. Se ha hecho accesible desde lenguajes de script como Python, Ruby, Perl, etc.

Sistemas operativos compatibles: plataformas UNIX, Windows, MacOS

Área de minería web : minería de uso web

2. Octoparse

Octoparse es una herramienta de minería de datos web simple pero potente que automatiza la extracción de datos web. Le permite crear reglas de extracción altamente precisas. Los rastreadores que se ejecutan en Octoparse están determinados por las reglas configuradas. La regla de extracción le diría a Octoparse: qué sitio web debe estar abierto; dónde están los datos que planea rastrear; qué tipo de datos desea, etc.

Sistemas operativos compatibles: Windows XP / 7/8/10
Área de minería web : minería de contenido web

3. Oracle Data Mining (ODM)

Oracle Data Mining es un software de minería de datos de Oracle. Oracle Data Mining se implementa en el núcleo OracleDatabase, y los modelos de minería son objetos de base de datos de primera clase. Los procesos de Oracle Data Mining utilizan características integradas de OracleDatabase para maximizar la escalabilidad y hacer un uso eficiente de los recursos del sistema.

Sistemas operativos compatibles: Microsoft Windows
Área de minería web : minería de uso web

– Ver más en: 7 herramientas de minería web en la web

Alexander Hirner

Necesitas definir mejor gratis. Porque muchos enfoques consumirán días o semanas de tu tiempo. Aunque no necesitaba proporcionar una tarjeta de crédito, ¿era gratis? Ese sería mi problema con cosas como “R”.

Muchas veces, las soluciones gratuitas proporcionarán información inadecuada, donde esperan que usted se venda más.

A veces, las soluciones gratuitas infringen los Términos de servicio para Faceook, Twitter, etc. No limitan la velocidad adecuada, eliminan la pantalla, todo lo cual podría hacer que su cuenta sea bloqueada.

Así que estoy de acuerdo con Dave Mansfield, otra persona que respondió. Gratis no es gratis, a menos que proporcione la información que desea en un esfuerzo mínimo y oportuno, y eso es muy raro.

Ward Yaternick

Hay cientos de herramientas y servicios de minería de datos que encontrará en línea. Las herramientas ScraperWorld Scraper son excelentes para el raspado de datos y ofrecen buenas funciones de automatización. Estas herramientas ofrecen técnicas rápidas de raspado de datos y proporcionan datos basados en su búsqueda. También guarda datos automáticamente en su base de datos en su formato de archivo de datos preferido.
Proporciona increíbles herramientas de raspado de datos que me funcionan muy bien para generar leads desde mis sitios web específicos.

Ward Yaternick

R se puede utilizar como una herramienta de análisis de datos y minería de datos.
Si quieres aprender R, tienen R studio para aprendizaje interactivo, que es muy bueno.
Puedes descargar R aquí
https://cran.r-project.org/bin/w …

Ward Yaternick

More Interesting

¿Quién es elegible para el entrenamiento Hadoop de Big Data?

¿Cuál es el flujo de trabajo habitual de un científico de datos antes de comenzar a analizar un conjunto de datos?

Cómo hacer aplicaciones basadas en un modelo basado en datos que toma datos de entrada y muestra predicciones de algo en particular

¿Quién debería hacer big data?

17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)

¿Qué tan básicos son los datos en Uber?

No quiero ser programador, pero tengo interés en SQL y Big Data. ¿Cómo puedo conseguir esto?

¿Vale la pena obtener una maestría dual en estadística e informática (para una carrera en ciencia de datos)?

¿Qué son las pruebas de Big Data y un ejemplo de ello?

Cómo descubrir las características más importantes en un conjunto de datos con más de 500 predictores