¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?

El depósito de aprendizaje automático de UCI es una de esas fuentes. Tiene una gran variedad de conjuntos de datos en términos de tipos de características, áreas de aplicación, tamaño del conjunto de datos, etc. Aunque permite la búsqueda y la navegación utilizando ciertos criterios, tiendo a tener dificultades para localizar el conjunto de datos justo para algún propósito ( generalmente para la enseñanza).

Últimamente, estoy mucho más entusiasmado con Kaggle (The Home of Data Science). Es un enfoque más social para compartir conjuntos de datos a través de concursos, problemas del mundo real y conjuntos de datos de fuentes como GE, Amazon a Wikipedia, Expedia, etc. Los conjuntos de datos y las aplicaciones me parecen más reales y emocionantes, y también hay serios recompensas para los mejores artistas. Es un centro social muy valioso para los científicos de datos en general.

Otra posibilidad es extraer datos de fuentes en línea disponibles gratuitamente (manual o automáticamente). Para un curso de aprendizaje automático, les pedí a los estudiantes que recopilaran características y precios de autos usados de un sitio en línea de venta de autos usados. Era un conjunto de datos relativamente pequeño (solo 3 modelos, <2000 muestras en total) con fines educativos (es posible que necesite otras disposiciones con fines comerciales), pero funcionó bien para mí.

AnalyticsBig DataData MiningData ScienceEducación

¿Cuáles son buenas métricas para la polarización política en las redes sociales?

¿Cuáles son las principales diferencias entre Python y R para la ciencia de datos?

¿Cuándo se usaría un modelo oculto de Markov en lugar de una red neuronal recurrente?

¿Cuáles son algunos buenos paquetes de R para el análisis de datos cualitativos?

¿Qué servicio de VPN puede usar para mantener segura toda su red doméstica de aquellas que podrían estar espiándola y con malas intenciones?

Se inventó una patente en los EE. UU. Para mi producto / idea en la década de 1950. ¿Puedo fabricar el producto y patentarlo aquí en Australia considerando que no está en nuestros estantes?

La plataforma CrowdANALYTIX tiene muchos casos de uso de la vida real con datos que puede usar como proyecto para su curso.
CrowdANALYTIX: una plataforma de análisis de crowdsourcing para resolver problemas empresariales basados en datos

También hay datos seleccionados para uso público (dataX):
http://data.crowdanalytix.com/

También hay muchas conferencias en video en Youtube o clases gratuitas en línea como Coursera para aprender ciencia de datos. Uno de los aspectos principales de la ciencia de datos es practicar para trabajar con datos de la vida real . Puede tomar cursos en línea, ver videos o leer libros todo lo que quiera, pero eso no ayudará a menos que practique con datos.

Para resolver esto, CrowdANALYTIX ha lanzado una serie de concursos de aprendizaje gratuitos bajo ” Business Analytics for Beginners Using R ” en su plataforma con datos de la vida real. Puede aprender y practicar con los datos dados para perfeccionar sus habilidades. Esta es una tienda gratuita donde aprenderá a trabajar con datos de la vida real que abarcan temas como preparación de datos, pruebas estadísticas, modelado, aprendizaje automático, cómo escribir informes de análisis técnico, etc. y obtener toda la ayuda y los recursos necesarios. Hasta ahora hemos lanzado un concurso que abarca 3 temas y seguiremos agregando más. Brindamos toda la orientación y los recursos necesarios para que nuestros solucionadores puedan aprender y crecer. Los solucionadores obtendrán un certificado de participación también.

Aunque la serie de concurso de aprendizaje mencionada anteriormente usa R, puede aplicar los mismos principios usando Python también en los datos dados. El enlace mencionado a continuación puede ayudarlo a obtener una visión general del análisis utilizando pandas (python) :
Página en linkedin.com

Además, una vez que tenga el conocimiento adecuado, puede comenzar a participar en nuestro concurso para clientes que tiene un premio en metálico asociado. Si su solución se encuentra entre los mejores solucionadores, recibirá premios en efectivo. Leer más aquí:
Lanzamiento de concursos de aprendizaje de Business Analytics

Washim Qureshi

More Interesting

¿Cuáles son los beneficios de la construcción de datos?

¿Por qué se considera que la ciencia de datos está de moda?

¿Es necesario obtener un doctorado para ser un científico de datos?

¿Cuánta programación debe saber alguien antes de entrar en Machine Learning y Data Science?

¿Puedo aprender estructuras de datos y algoritmos sin matemáticas?

¿Cómo se usan los conceptos de probabilidad y estadística en la ciencia de datos?

Cómo decidir qué datos recopilar al construir un modelo predictivo

¿Cuál es la diferencia entre los archivos .zip, .rar, .deb y .tar?

¿Cuál es su software de análisis de datos preferido y por qué?

Big Data: ¿Cuántos datos son suficientes para realizar análisis de datos y obtener resultados válidos?