Hay muchos conjuntos de datos públicos que puede usar para entrenar sus modelos. Algunos de los más utilizados se pueden encontrar aquí: Depósito de aprendizaje automático UCI: conjuntos de datos
Si necesita algo más personalizado, siempre puede encontrar datos en Internet. Muchas empresas (como la mía) están obteniendo los datos que necesitan de las redes sociales, los motores de búsqueda u otros sitios web. Es una táctica muy común en el aprendizaje automático.
Si desea comenzar a raspar, le sugiero que eche un vistazo aquí: Un marco rápido y potente de raspado y rastreo web
Por supuesto, hay numerosos marcos de raspado para elegir.
- ¿Cómo utiliza Google el aprendizaje automático?
- ¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?
- ¿Qué libro de los dos es más completo para PNL: el de Jurafsky o el de Manning?
- ¿Cuáles son algunas ideas interesantes para un proyecto de investigación en procesamiento de lenguaje natural y / o traducción automática?
- ¿Qué métodos (sin supervisión) deberían usarse para la categorización jerárquica automática de documentos?
Actualizar:
Esto es lo que estoy construyendo actualmente: Intelistyle – The Artificial Intelligence Fashion Stylist
He raspado a muchos minoristas para obtener los datos para esto como h & m, zara, mango, zalando, etc.