¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?

Hay muchos conjuntos de datos públicos que puede usar para entrenar sus modelos. Algunos de los más utilizados se pueden encontrar aquí: Depósito de aprendizaje automático UCI: conjuntos de datos

Si necesita algo más personalizado, siempre puede encontrar datos en Internet. Muchas empresas (como la mía) están obteniendo los datos que necesitan de las redes sociales, los motores de búsqueda u otros sitios web. Es una táctica muy común en el aprendizaje automático.

Si desea comenzar a raspar, le sugiero que eche un vistazo aquí: Un marco rápido y potente de raspado y rastreo web
Por supuesto, hay numerosos marcos de raspado para elegir.

Actualizar:
Esto es lo que estoy construyendo actualmente: Intelistyle – The Artificial Intelligence Fashion Stylist
He raspado a muchos minoristas para obtener los datos para esto como h & m, zara, mango, zalando, etc.