¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?

El depósito de aprendizaje automático de UCI es una de esas fuentes. Tiene una gran variedad de conjuntos de datos en términos de tipos de características, áreas de aplicación, tamaño del conjunto de datos, etc. Aunque permite la búsqueda y la navegación utilizando ciertos criterios, tiendo a tener dificultades para localizar el conjunto de datos justo para algún propósito ( generalmente para la enseñanza).

Últimamente, estoy mucho más entusiasmado con Kaggle (The Home of Data Science). Es un enfoque más social para compartir conjuntos de datos a través de concursos, problemas del mundo real y conjuntos de datos de fuentes como GE, Amazon a Wikipedia, Expedia, etc. Los conjuntos de datos y las aplicaciones me parecen más reales y emocionantes, y también hay serios recompensas para los mejores artistas. Es un centro social muy valioso para los científicos de datos en general.

Otra posibilidad es extraer datos de fuentes en línea disponibles gratuitamente (manual o automáticamente). Para un curso de aprendizaje automático, les pedí a los estudiantes que recopilaran características y precios de autos usados ​​de un sitio en línea de venta de autos usados. Era un conjunto de datos relativamente pequeño (solo 3 modelos, <2000 muestras en total) con fines educativos (es posible que necesite otras disposiciones con fines comerciales), pero funcionó bien para mí.

La plataforma CrowdANALYTIX tiene muchos casos de uso de la vida real con datos que puede usar como proyecto para su curso.
CrowdANALYTIX: una plataforma de análisis de crowdsourcing para resolver problemas empresariales basados ​​en datos

También hay datos seleccionados para uso público (dataX):
http://data.crowdanalytix.com/

También hay muchas conferencias en video en Youtube o clases gratuitas en línea como Coursera para aprender ciencia de datos. Uno de los aspectos principales de la ciencia de datos es practicar para trabajar con datos de la vida real . Puede tomar cursos en línea, ver videos o leer libros todo lo que quiera, pero eso no ayudará a menos que practique con datos.

Para resolver esto, CrowdANALYTIX ha lanzado una serie de concursos de aprendizaje gratuitos bajo ” Business Analytics for Beginners Using R ” en su plataforma con datos de la vida real. Puede aprender y practicar con los datos dados para perfeccionar sus habilidades. Esta es una tienda gratuita donde aprenderá a trabajar con datos de la vida real que abarcan temas como preparación de datos, pruebas estadísticas, modelado, aprendizaje automático, cómo escribir informes de análisis técnico, etc. y obtener toda la ayuda y los recursos necesarios. Hasta ahora hemos lanzado un concurso que abarca 3 temas y seguiremos agregando más. Brindamos toda la orientación y los recursos necesarios para que nuestros solucionadores puedan aprender y crecer. Los solucionadores obtendrán un certificado de participación también.

Aunque la serie de concurso de aprendizaje mencionada anteriormente usa R, puede aplicar los mismos principios usando Python también en los datos dados. El enlace mencionado a continuación puede ayudarlo a obtener una visión general del análisis utilizando pandas (python) :
Página en linkedin.com

Además, una vez que tenga el conocimiento adecuado, puede comenzar a participar en nuestro concurso para clientes que tiene un premio en metálico asociado. Si su solución se encuentra entre los mejores solucionadores, recibirá premios en efectivo. Leer más aquí:
Lanzamiento de concursos de aprendizaje de Business Analytics