Utilicé el tándem de scrapy [1] y BeautifulSoup [2] para raspar grandes cantidades de datos estructurados, al igual que los grandes chicos de leadGenius [3]. Estoy de acuerdo con Ward en que no hay servicio gratuito a menos que esté contento con consultar los grandes gráficos de conocimiento previo a la mente que existen [4].
Sin embargo, unir una solución FOSS es viable si tiene un objetivo bien definido. Por lo general, un proyecto de minería de datos implica algunos trucos específicos de todos modos, por lo que las herramientas comerciales también tienen una curva de aprendizaje. Puedes echar un vistazo al código fuente que involucra algunos de esos trucos para el proyecto que mencioné antes [5].
[1] Un marco rápido y potente de raspado y rastreo web
[2] http://www.crummy.com/software/B…
[3] Página en leadgenius.com y la gran presentación de Anand Kulkarni para ventas impulsadas por datos que escalan: construyendo IA que vende
[4] Por ejemplo, Max-Planck-Institut für Informatik: YAGO y DBpedia
[5] ahirner / py-cf-crawl
- Para algoritmos de bandidos con múltiples brazos, ¿tiene sentido dejar de muestrear un brazo si el límite de confianza superior p% es menor que el límite de confianza inferior p% de un brazo de diferencia?
- ¿Cuál es el lenguaje de programación más poderoso en el campo de Analytics / Data Science: Python, R o SAS?
- Cómo limpiar, preparar y transformar datos en ciencia de datos
- ¿Qué tan popular es Datatau?
- Cómo comenzar a aprender ciencia de datos desde cero sin un fondo de codificación