¿Podemos automatizar las búsquedas a través del aprendizaje automático? Tengo cientos de sitios web de diferentes fabricantes de automóviles, si tengo la intención de extraer toda la información (sobre todas las bicicletas / automóviles) junto con los enlaces.

Podemos automatizar varias cosas con Machine Learning, sin embargo, la automatización de la búsqueda y la extracción de datos en realidad estaría en Scraping o Data Mining .

Existen múltiples herramientas y técnicas disponibles para la minería de datos. Si su objetivo es solo extraer datos mediante la búsqueda en algunos sitios web, puede hacerlo con:

  1. WebHarvy: si no tienes experiencia en programación o no quieres programar, entonces es una herramienta de raspado fácil de usar. Puede entrenar la herramienta simplemente enseñándole dónde buscar, qué buscar y qué datos recopilar. Es como si le dijeras lo que harías manualmente para extraer datos y luego automatiza tus acciones y creará un archivo CSV a partir de los datos raspados.
  2. Scrapy: una biblioteca de Python de código abierto que también ofrece muchas opciones programables para extraer datos.

Una vez que tenga los datos deseados, puede limpiarlos, procesarlos, estandarizarlos y luego aplicar un algoritmo de aprendizaje automático para probar algunos casos de uso como:

  • Predecir : use la regresión para predecir precios, kilometraje, velocidades máximas, etc. ( tenga en cuenta que solo puede aplicar Machine Learning y Prediction cuando existe una relación entre las variables que está tratando de aprender y predecir )
  • Clasificar : utilice técnicas de clasificación como Regresión logística, Árboles de decisión (o Bosques aleatorios si los datos son grandes), Máquinas de vectores de soporte, Vecinos más cercanos a K para clasificar las bicicletas u otros automóviles en diferentes categorías
  • Identificación del modelo : use la visión por computadora en las imágenes para identificar el automóvil

Lo que su modelo puede aprender a hacer depende de los datos y las variables que recopile. Estaré encantado de sugerir más casos de uso si puede compartir qué tipo de datos está tratando de adquirir.

Espero que esto ayude.

Si entiendo tu problema. Desea extraer información de la fabricación de automóviles y luego clasificarla de acuerdo con alguna lógica.

Vamos a dividir este problema en dos partes.

  1. Recopilación de datos
  2. Clasificación de datos

La recopilación de datos es posible utilizando cualquier rastreador web. Recomendaré Scarapy. (Un marco rápido y potente de raspado y rastreo web) Scrapy es un marco de aplicación para rastrear sitios web y extraer datos estructurados que se pueden utilizar para una amplia gama de aplicaciones útiles, como minería de datos, procesamiento de información o archivo histórico.

Una vez que tenga datos de sitios web. Ahora tiene dos clasifíquelo según su lógica.

Para la clasificación de datos, puede usar árboles de decisión / KNN, etc.

More Interesting

¿Cómo se puede aplicar el aprendizaje profundo a la clasificación de palabras?

¿Hay alguna desventaja de usar GPU en el aprendizaje profundo?

¿Cuál es el mejor paquete R para predecir la causalidad entre dos flujos de datos de series temporales?

¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?

¿Cuáles son los beneficios de usar el Descenso de gradiente de mini lotes?

¿El aprendizaje automático es malo para la economía?

¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?

¿Por qué la biblioteca de estadísticas de Python es tan limitada en métodos bioestadísticos avanzados en comparación con R, mientras que la biblioteca de Python de Machine Learning es mucho mejor?

¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?

¿Se utiliza R en la minería de datos a gran escala en grandes compañías de software como Facebook y LinkedIn?

¿Qué aplicaciones se utilizan para la codificación TensorFlow?

¿Cuál es una buena manera de elegir los puntos iniciales de los grupos de k en el grupo de medios k?

¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

¿Existe una conexión entre la ciencia de datos y el aprendizaje automático?

¿Qué métricas debo usar en mi investigación de preprocesamiento de datos (no estructurada)?