Si recién está comenzando, hay datos sólidos e investigados en el sitio web de Irvine de la Universidad de California, que está específicamente dirigido a problemas de aprendizaje automático de hormigas. Es un gran lugar para obtener datos con los que experimentar mientras desarrolla destreza con métodos complejos. También hay algunos incluidos en scikit, por lo que puede llamarlos directamente desde su propia computadora. También es posible que desee aprender a extraer de las API, en cuyo caso hay un montón de fuentes:
- Quandle (datos financieros)
- USGS (datos gubernamentales de ciencias de la tierra)
- NOASS (datos meteorológicos)
- Censo (datos demográficos)
- Twitter (datos de locos que dicen locuras)
- Y mucho más si miras a tu alrededor …
Eventualmente querrá buscar datos más directamente. Aprender a extraerlo de fuentes web y documentos se vuelve importante, al igual que aprender a integrar datos de transmisión en vivo desde dispositivos IoT, fuentes industriales y matrices de sensores.
Al principio, puede comenzar de manera simple con datos preparados para desarrollar habilidades analíticas, integrar la limpieza y la clasificación mediante la adquisición de sus propios datos.
- ¿De dónde obtiene sus datos el pitchbook?
- ¿De qué sirve Big Data, si los datos están tan desestructurados?
- ¿Cuál es su software de análisis de datos preferido y por qué?
- ¿Qué tan popular es SPSS entre los científicos de datos?
- ¿Cuáles son las API de aprendizaje automático que puedo usar para analizar la calidad de los datos?