Cómo construir un conjunto de datos para el aprendizaje automático

Tu pregunta no está clara. ¿Hay alguna razón en particular para que construyas un conjunto de datos? Si realmente desea construir un conjunto de datos con sus propios atributos y datos, puede hacerlo utilizando una hoja de cálculo.

Si tiene como objetivo la creación de un gran conjunto de datos con miles y miles de filas, tomará una buena cantidad de tiempo, ¡y no es aconsejable!

Hay muchos sitios disponibles donde puede descargar conjuntos de datos

1) Plataforma de datos de gobierno abierto (OGD) India → un sitio para apoyar la Iniciativa de datos abiertos del gobierno de India. GOI ofrece una gran cantidad de conjuntos de datos en tiempo real.

Del mismo modo, tiene los conjuntos de datos disponibles por diferentes gobiernos en varios países.

Data.gov → Datos de EE. UU.

http://datausa.io → La visualización más completa de datos públicos de EE. UU.

Data.gov.sg → Datos en Singapur

etc. Puede buscar en Google los datos de muchos otros países.

2) Puede descargar conjuntos de datos de sitios como Kaggle, Your Home for Data Science, donde se organizan Hackathons

3) Puede descargar datos de universidades como UAH

http://uah.edu/

https://www.nsstc.uah.edu/atmchem/download_data.html

https://en.wikipedia.org/wiki/UAH_satellite_temperature_dataset

Si se refiere a la tarea específica de etiquetado / etiquetado de datos, puede configurar una canalización humana, que involucre tanto a participantes remunerados como a voluntarios.

Para conjuntos de datos muy pequeños, puede construir el conjunto de datos usted mismo , lo he hecho varias veces para pequeños proyectos universitarios. Si necesita muchos más datos y en muy poco tiempo, puede automatizar la mayor parte del proceso implementando su propio raspador o utilizando una plataforma de subcontratación .

Por ejemplo, podría usar Amazon Mechanical Turk para el etiquetado de conjuntos de datos. Dependiendo de sus necesidades específicas, puede ser tanto económico como rápido. Dicha plataforma lo ayudaría a lidiar con los problemas más comunes, como la privacidad, la seguridad, la capacitación, la desambiguación, la recopilación de datos, etc.

Puede leer más sobre esto aquí: Amazon Mechanical Turk: construir conjuntos de datos de Machine Learning

No lo hagas, si no puedes. Si puede, entonces puede que tenga que

  • configura tus propios experimentos, toma autorizaciones éticas si se trata de humanos
  • cuidar los problemas de privacidad
  • escribe tus propios scripts para raspar datos; si su problema involucra datos de texto de la web
  • comprar equipos (p. ej. sensores, dispositivos) para darle los datos deseados
  • hacer un procesamiento previo de datos, etiquetado de datos, limpieza de datos, etc.
  • póngalo en Mechanical Turk, si desea obtener calificaciones.