¿Dónde puedo obtener algunas hojas de datos para practicar ciencia de datos en Python?

Si recién está comenzando, hay datos sólidos e investigados en el sitio web de Irvine de la Universidad de California, que está específicamente dirigido a problemas de aprendizaje automático de hormigas. Es un gran lugar para obtener datos con los que experimentar mientras desarrolla destreza con métodos complejos. También hay algunos incluidos en scikit, por lo que puede llamarlos directamente desde su propia computadora. También es posible que desee aprender a extraer de las API, en cuyo caso hay un montón de fuentes:

  • Quandle (datos financieros)
  • USGS (datos gubernamentales de ciencias de la tierra)
  • NOASS (datos meteorológicos)
  • Censo (datos demográficos)
  • Twitter (datos de locos que dicen locuras)
  • Y mucho más si miras a tu alrededor …

Eventualmente querrá buscar datos más directamente. Aprender a extraerlo de fuentes web y documentos se vuelve importante, al igual que aprender a integrar datos de transmisión en vivo desde dispositivos IoT, fuentes industriales y matrices de sensores.

Al principio, puede comenzar de manera simple con datos preparados para desarrollar habilidades analíticas, integrar la limpieza y la clasificación mediante la adquisición de sus propios datos.

Todos los científicos de datos se encuentran con este problema en algún momento. Para empezar, diría que realmente depende del tipo de datos que desee. Para PNL necesitaría corpus de texto, para la clasificación de imágenes necesita imágenes, etc. Sin embargo, si solo está buscando conjuntos de datos ML en general, hay un gran lugar para encontrarlos:

Kaggle, su hogar para la ciencia de datos, es un sitio web con más de 600,000 científicos de datos como miembros. Tiene cientos de conjuntos de datos que puede usar de forma gratuita. Es un recurso realmente valioso. Probablemente puedas encontrar casi cualquier cosa que quieras practicar allí.

¡Buena suerte!

Como mis compañeros han respondido, puede usar kaggle, que es un repositorio realmente bueno para conjuntos de datos. Junto con eso, también puede probar KDnuggets y el repositorio de UCL Machine Learning. Si está interesado en ingresar a los conjuntos de datos de la vida real, puede buscar el repositorio de datos de un país específico y tomar datos. En este caso, no tendrá ninguna pregunta que responder, sino que tendrá que averiguar qué se puede responder con este conjunto de datos, esto ayudará mucho, ya que en la mayoría del entorno de trabajo real se enfrentará a este escenario en el que debe resolver Qué hacer con los datos.

Kaggle, sin duda. De lejos el mejor. Sé lo suficientemente bueno, incluso podría hacerte millonario.