Cómo construir un conjunto de datos para el aprendizaje automático

Tu pregunta no está clara. ¿Hay alguna razón en particular para que construyas un conjunto de datos? Si realmente desea construir un conjunto de datos con sus propios atributos y datos, puede hacerlo utilizando una hoja de cálculo.

Si tiene como objetivo la creación de un gran conjunto de datos con miles y miles de filas, tomará una buena cantidad de tiempo, ¡y no es aconsejable!

Hay muchos sitios disponibles donde puede descargar conjuntos de datos

1) Plataforma de datos de gobierno abierto (OGD) India → un sitio para apoyar la Iniciativa de datos abiertos del gobierno de India. GOI ofrece una gran cantidad de conjuntos de datos en tiempo real.

Del mismo modo, tiene los conjuntos de datos disponibles por diferentes gobiernos en varios países.

Data.gov → Datos de EE. UU.

http://datausa.io → La visualización más completa de datos públicos de EE. UU.

Data.gov.sg → Datos en Singapur

etc. Puede buscar en Google los datos de muchos otros países.

2) Puede descargar conjuntos de datos de sitios como Kaggle, Your Home for Data Science, donde se organizan Hackathons

3) Puede descargar datos de universidades como UAH

http://uah.edu/

https://www.nsstc.uah.edu/atmchem/download_data.html

https://en.wikipedia.org/wiki/UAH_satellite_temperature_dataset

¿Es posible el aprendizaje automático acelerado por GPU utilizando un controlador de gráficos de software libre?

¿Puede un autoencoder sobreajustar cuando tiene una cantidad mucho menor de neuronas de capa oculta que la capa de entrada y también se usa la deserción?

¿Estamos presenciando las primeras etapas del uso de ML en la industria o cree que la aplicación de ML hacia la industria ya está muy extendida?

¿Cómo se derivan las funciones de costo para las redes neuronales?

Yoshua Bengio: ¿Será el aprendizaje profundo un paso hacia la IA consciente?

¿Alguien siente que la programación de sistemas tradicionales es muy diferente del aprendizaje automático?

Si se refiere a la tarea específica de etiquetado / etiquetado de datos, puede configurar una canalización humana, que involucre tanto a participantes remunerados como a voluntarios.

Para conjuntos de datos muy pequeños, puede construir el conjunto de datos usted mismo , lo he hecho varias veces para pequeños proyectos universitarios. Si necesita muchos más datos y en muy poco tiempo, puede automatizar la mayor parte del proceso implementando su propio raspador o utilizando una plataforma de subcontratación .

Por ejemplo, podría usar Amazon Mechanical Turk para el etiquetado de conjuntos de datos. Dependiendo de sus necesidades específicas, puede ser tanto económico como rápido. Dicha plataforma lo ayudaría a lidiar con los problemas más comunes, como la privacidad, la seguridad, la capacitación, la desambiguación, la recopilación de datos, etc.

Puede leer más sobre esto aquí: Amazon Mechanical Turk: construir conjuntos de datos de Machine Learning

Neelima Vobugari

No lo hagas, si no puedes. Si puede, entonces puede que tenga que

configura tus propios experimentos, toma autorizaciones éticas si se trata de humanos
cuidar los problemas de privacidad
escribe tus propios scripts para raspar datos; si su problema involucra datos de texto de la web
comprar equipos (p. ej. sensores, dispositivos) para darle los datos deseados
hacer un procesamiento previo de datos, etiquetado de datos, limpieza de datos, etc.
póngalo en Mechanical Turk, si desea obtener calificaciones.

Neelima Vobugari

More Interesting

¿Por qué es tan difícil automatizar la inferencia variacional?

¿Vale la pena el curso sobre aprendizaje automático en Coursera por la Universidad de Stanford?

¿Qué es una máquina de vectores de soporte?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

Soy doctora en ingeniería informática con experiencia en aprendizaje automático y optimización bayesiana. Me encantaría evolucionar mi investigación hacia la mecánica estadística y la biofísica. ¿Cómo podría lograr eso? ¿Qué colaboraciones vale la pena buscar?

Si la IA de aprendizaje automático no puede explicar una respuesta, ¿se puede 'confiar' en un diagnóstico médico?

¿Cuál es el mejor código comercial de reconocimiento facial?

¿Cuál es la posibilidad de hacer una máquina de pensamiento real?

¿En qué tipo de situaciones debemos emplear las redes neuronales recurrentes de Vanilla en lugar de LSTM?

¿Cuál es la posibilidad de que un humano gane el juego de entropía?