El depósito de aprendizaje automático de UCI es una de esas fuentes. Tiene una gran variedad de conjuntos de datos en términos de tipos de características, áreas de aplicación, tamaño del conjunto de datos, etc. Aunque permite la búsqueda y la navegación utilizando ciertos criterios, tiendo a tener dificultades para localizar el conjunto de datos justo para algún propósito ( generalmente para la enseñanza).
Últimamente, estoy mucho más entusiasmado con Kaggle (The Home of Data Science). Es un enfoque más social para compartir conjuntos de datos a través de concursos, problemas del mundo real y conjuntos de datos de fuentes como GE, Amazon a Wikipedia, Expedia, etc. Los conjuntos de datos y las aplicaciones me parecen más reales y emocionantes, y también hay serios recompensas para los mejores artistas. Es un centro social muy valioso para los científicos de datos en general.
Otra posibilidad es extraer datos de fuentes en línea disponibles gratuitamente (manual o automáticamente). Para un curso de aprendizaje automático, les pedí a los estudiantes que recopilaran características y precios de autos usados de un sitio en línea de venta de autos usados. Era un conjunto de datos relativamente pequeño (solo 3 modelos, <2000 muestras en total) con fines educativos (es posible que necesite otras disposiciones con fines comerciales), pero funcionó bien para mí.
- ¿Cuáles son las principales aplicaciones (de la vida real) de la minería de datos y la ciencia de datos utilizadas en el mundo práctico de hoy?
- ¿Qué cursos debo hacer para convertirme en científico de decisiones?
- ¿Cuánto conocimiento de estadísticas básicas se utiliza realmente en la ciencia de datos moderna?
- Como aspirante a científico de datos, ¿qué lenguaje de programación debo aprender entre Python, R, C # y Java, dado que no tengo experiencia previa en programación? Tengo una licenciatura en economía y estadística y una maestría en administración.
- ¿Cuál es el límite de tamaño de archivo en una carga a Slack?