¿Dónde puedo obtener algunas hojas de datos para practicar ciencia de datos en Python?

Si recién está comenzando, hay datos sólidos e investigados en el sitio web de Irvine de la Universidad de California, que está específicamente dirigido a problemas de aprendizaje automático de hormigas. Es un gran lugar para obtener datos con los que experimentar mientras desarrolla destreza con métodos complejos. También hay algunos incluidos en scikit, por lo que puede llamarlos directamente desde su propia computadora. También es posible que desee aprender a extraer de las API, en cuyo caso hay un montón de fuentes:

Quandle (datos financieros)
USGS (datos gubernamentales de ciencias de la tierra)
NOASS (datos meteorológicos)
Censo (datos demográficos)
Twitter (datos de locos que dicen locuras)
Y mucho más si miras a tu alrededor …

Eventualmente querrá buscar datos más directamente. Aprender a extraerlo de fuentes web y documentos se vuelve importante, al igual que aprender a integrar datos de transmisión en vivo desde dispositivos IoT, fuentes industriales y matrices de sensores.

Al principio, puede comenzar de manera simple con datos preparados para desarrollar habilidades analíticas, integrar la limpieza y la clasificación mediante la adquisición de sus propios datos.

Ciencia dedatosProgramación informáticaPython

¿Cuál es la mejor estrategia para entrevistar al talento de ciencia de datos autodidacta?

¿Dónde debo unirme para la capacitación en ciencia de datos?

¿Cómo debo ir de donde estoy ahora a una carrera en ciencia de datos?

En AWS, ¿qué es mejor para el análisis y modelado de datos: instancias optimizadas para memoria o computación?

¿Cuáles son las clases de ciencias de datos más útiles para abogados?

¿Cuáles son las definiciones de ‘experimento, prueba, replicación, repetición, datos, mediciones’ en estadística?

Todos los científicos de datos se encuentran con este problema en algún momento. Para empezar, diría que realmente depende del tipo de datos que desee. Para PNL necesitaría corpus de texto, para la clasificación de imágenes necesita imágenes, etc. Sin embargo, si solo está buscando conjuntos de datos ML en general, hay un gran lugar para encontrarlos:

Kaggle, su hogar para la ciencia de datos, es un sitio web con más de 600,000 científicos de datos como miembros. Tiene cientos de conjuntos de datos que puede usar de forma gratuita. Es un recurso realmente valioso. Probablemente puedas encontrar casi cualquier cosa que quieras practicar allí.

¡Buena suerte!

Marius Ciurcau

Como mis compañeros han respondido, puede usar kaggle, que es un repositorio realmente bueno para conjuntos de datos. Junto con eso, también puede probar KDnuggets y el repositorio de UCL Machine Learning. Si está interesado en ingresar a los conjuntos de datos de la vida real, puede buscar el repositorio de datos de un país específico y tomar datos. En este caso, no tendrá ninguna pregunta que responder, sino que tendrá que averiguar qué se puede responder con este conjunto de datos, esto ayudará mucho, ya que en la mayoría del entorno de trabajo real se enfrentará a este escenario en el que debe resolver Qué hacer con los datos.

Paul Burkart

Kaggle, sin duda. De lejos el mejor. Sé lo suficientemente bueno, incluso podría hacerte millonario.

Paul Burkart

More Interesting

¿Suena útil la certificación de IBM de Big Data University al dar entrevistas?

¿Qué piensa la comunidad de Data Science sobre la discriminación contra aquellos sin doctorado de recursos humanos sin educación?

Cómo elegir una carrera adecuada en el dominio de Big Data

¿Cuáles son los principales hechos de Big Data?

¿Cuáles son los logros de Yahoo en el campo de Big Data?

¿Vale la pena organizar un concurso de dinero de Kaggle?

¿Cuál es la diferencia entre los datos del panel, los datos en serie de tiempo y los datos de sección transversal?

Si elimino un archivo, lo sobrescribo con otro archivo en la misma carpeta y destruyo el nuevo archivo, ¿puedo recuperar el archivo original que estaba inicialmente en la carpeta?