¿Cuáles son algunos proyectos de análisis de datos que puedo hacer como principiante en ciencia de datos?

Sugiero comenzar desde temas que le gusten y entiendan. Si profundiza en los detalles de los datos financieros o minoristas, podría llevar mucho tiempo.

Si le gusta la política, intente utilizar los datos abiertos proporcionados por US Sunlight Foundation y ProPublica – Sunlight Foundation

Si le gusta el cine, intente utilizar datos IMBD: dónde obtener conjuntos de datos de IMDb

Si te gusta el porno, prueba Sexalitics – Sexualitics :: Datasets

Y así.

Para su primer proyecto de análisis de datos solo necesita una gran cantidad de datos y algunas ideas que le gustaría verificar y algunos algoritmos o enfoques que le gustaría utilizar.

Entonces la receta final es:
1. Tome los datos que le interesen.
2. Genere algunas ideas que quiera verificar.
3. Use la tecnología adecuada para probar sus ideas contra el conjunto de datos.

Como ejemplo. Hace unos años tenía un conjunto de datos de unos 300 000 contratos de contratación pública del gobierno ruso.

Tuve una idea de que los funcionarios corruptos usaban la técnica de spammers para ocultar ciertas ofertas de la sociedad.

Así que escribí un programa usando el lenguaje Python para calcular estadísticas de caracteres, para procesar el lenguaje de la naturaleza, etc. Después de todo, confirmé esa idea y encontré alrededor de 2000 casos de ” contratos ocultos “, ya que algunos funcionarios utilizaron la ” técnica de reemplazo de letras ” para evitar una indexación de texto adecuada.

Este es un ejemplo sin detalles técnicos profundos, pero este enfoque es bueno para la mayoría de los proyectos de ciencia de datos.

Mi respuesta es: ¿qué le interesa?

“Data Science” es en gran parte una bolsa de herramientas algorítmicas (regresiones, redes neuronales, cadenas de Markov, estadísticas generales …) y programas que le permiten pegar sus datos de manera más o menos fácil en estos algoritmos (R, Python, Apache Spark, SQL , Excel …). Agregue un montón de frustrantes “tratar de limpiar datos desordenados y pegarlos en vectores” y obtendrá un día completo de trabajo.

Entonces, de nuevo, ¿en qué estás interesado? Porque si puede elegir algo, probablemente pueda comenzar a recopilar datos sobre él, limpiarlo, pegarlo en R / Python / etc. y luego ejecutar algunos algoritmos en él.

Aquí hay una historia …

Durante gran parte de mi tiempo en la escuela de posgrado, tuve un grupo de bebidas los viernes por la tarde con varios amigos. Nos ocupamos de obtener una amplia variedad de cervezas para nuestras sesiones, pero después de un tiempo comencé a sentirme muy frustrado porque a menudo apenas podía recordar qué cervezas me gustaban.

Finalmente, después de preguntarme por esto lo suficiente, comencé a tener un pequeño cuaderno conmigo donde grabaría las cervezas y les daría una calificación entre 1 y 10. Llevar el cuaderno conmigo comenzó a ser un poco complicado, así que Moví la información a una hoja de cálculo en mi computadora.

Alrededor de las cervezas 50ish grabadas, cada vez sentía más curiosidad acerca de cómo calificaba las cosas. Específicamente, ¿qué cervezas me gustaron? Bueno, después de un par de horas de investigación en línea, compilé una lista decente de diferentes estilos de cerveza y si eran cervezas o cervezas (siempre supe que había una diferencia fundamental entre las dos, pero nunca pude mantenerlas en orden. ¡También podría aprender ahora!). Mientras tanto, un amigo que me estaba aconsejando sobre cómo solicitar un empleo fuera de la escuela de posgrado me recomendó que eligiera SQL, así que escribí algunos scripts SQL en Python para intentar procesar los datos. Agrupe por cerveza o cerveza, tome una media, y como tendencia general, pude ver que en general me gustaban las cervezas mucho más que las cervezas, y a medida que agregaba cerveza tras cerveza a mi hoja de cálculo, esto se hizo cada vez más claro.

Siendo un poco aficionado a la cerveza, siempre existía la idea implícita de que la cerveza “artesanal” era mejor que “la gran cerveza industrial”. Pero, había leído el libro de Charles Bamforth “La cerveza es una prueba de que Dios nos ama” y el artículo del New Yorker sobre Dogfish Head, los cuales tenían prominentes maestros cerveceros que admitían admiración por la habilidad de Anhauser-Busch. ¿Cómo cuadro esta información? Bueno, una tarde más larga (esto requirió mucha búsqueda en Wikipedia) y sentí que tenía una lista bastante completa de qué marcas de cerveza eran propiedad de las grandes empresas (AB / InBev, SABMiller, Carlsberg, …) y cuáles eran independientes unos. Mientras tanto, mi amigo me recomendó que también aprendiera Python-Pandas, así que reescribí las cosas y algunas fusiones de marcos de datos más tarde, pude ver que, aunque SABMiller y MolsonCoors en general lo hicieron bastante mal, no pude ver ninguna diferencia estadística entre mis calificaciones de ” cervezas artesanales y las de Anhauser-Busch / InBev. Entonces, ahora tengo muchos más matices para mi esnobismo cervecero.

Surgieron más preguntas. ¿Me gustaron más las cervezas de un vaso o una botella? Fue difícil notar una diferencia real. ¿Las cervezas boozier obtienen una calificación más alta? En general si. ¿Qué países hacen la mejor cerveza? Bélgica, los EE. UU. Y el Reino Unido están en la cima, mientras que lugares como Alemania y Suiza son decepcionantemente bajos, pero, para citar a otro escritor de cerveza, “El Reinheitsgebot, qué carga de viejos b * llocks”.

Alguien podría decir “bueno, si estás interesado en rastrear cerveza, ¿por qué no usar Untappd?” Bueno, no habría aprendido mucho sobre el proceso si alguien más lo hubiera hecho por mí, y Untappd no proporciona la información que me interesa. Además, ¿tengo que darles $ 5 por una hoja de cálculo con mi propia información de cerveza? No.

Me tomé un descanso de este proyecto (más allá de registrar obedientemente todas las cervezas que bebo y varios fragmentos de información sobre ellas), pero hay más por hacer cuando vuelva a ello. Quiero hacer buenos mapas que muestren de dónde es la mejor cerveza (IMO). Quiero obtener algunos paquetes de seis y tener una comprensión más clara de cómo la temperatura a la que bebo una cerveza afecta mi calificación.

Pero, como parte de esto, he adquirido muchos conocimientos simplemente haciendo orgánicamente. Aprendí SQL y pandas, descubrí qué es una prueba de Kruskal-Wallis y descubrí algunas buenas maneras de hacer buenas tramas en matplotlib. Intentaré traducir lo que he hecho a R para aprender ese idioma, y ​​trataré de descubrir mapas base (que todavía no entiendo completamente) para hacer mis tramas.

Y he aprendido mucho más sobre la cerveza. Cuál era realmente el punto.

PD: Nunca empieces a pensar en Big Data. Solo ve allí cuando tengas que hacerlo. https://www.chrisstucchio.com/bl…

Kaggle es una gran fuente. No te preocupes por los premios. Estos son algunos de los proyectos de la vida real, son gratuitos y lo mejor de todo es que puedes conservar los datos. Así que regístrese, descargue los datos y comience a jugar con ellos; Cada proyecto tiene objetivos claramente definidos que lo ayudarán a trabajar.

Una de las formas de abordar los proyectos se basa en el área técnica o dominio de la industria que le gustaría desarrollar el próximo nivel de experiencia.

Recoge un tema a la vez. Manteniendo la lista simple y en su mayoría curada por Kaggle.

Áreas tecnológicas

a) PNL: el procesamiento del lenguaje natural es un área importante de trabajo donde la industria está trabajando activamente.

Algunas fuentes de aprendizaje, tutoriales y práctica de problemas de PNL son:

1 – Este tutorial se enfoca en Word2Vec para el análisis de sentimientos.

https://www.kaggle.com/c/word2ve

2 – Reseñas de Amazon para el análisis de sentimientos

b) Predicción de series de tiempo

Las series de tiempo encapsulan muchos problemas diferentes en diferentes aplicaciones como finanzas, ya sea, tráfico web.

1 – Predicción de series temporales de tráfico web

2 – Análisis de datos de series temporales para la predicción del mercado de valores

https://www.researchgate.net/pub

c) Procesamiento y clasificación de imágenes

Clasificación de fotos de restaurantes de Yelp

Industria

1 – Predicciones de ventas

Análisis completo de Python y D3.js Favorita

2 – Fraude

Detección de fraude con tarjeta de crédito

3- cuidado de la salud

Conjunto de datos de Wisconsin (diagnóstico) de cáncer de seno

4 – Criptomoneda

Precios históricos de criptomonedas | Kaggle

Datos de Yelp. Tienen muchas sugerencias sobre qué hacer con los datos. Elija un tema y vea si puede resolver alguno de ellos.

O inventa el tuyo. Además, mire a los ganadores anteriores y lo que hicieron para obtener algunas ideas.

http://www.yelp.com/dataset_chal

Consulte la novena Conferencia de ACM sobre sistemas de recomendación.
Viena, Austria, 16-20 de septiembre de 2015
RecSys 2015 (Viena) – RecSys

Por favor recuerde:
Los sistemas de recomendación basados ​​en la personalidad son la próxima generación de sistemas de recomendación porque funcionan mucho mejor que los de comportamiento (acciones pasadas y patrones de preferencias personales)
Esa es la única forma de mejorar los sistemas de recomendación, para incluir los rasgos de personalidad de sus usuarios. Necesitan calcular la similitud de personalidad entre los usuarios.

En caso de que no lo haya notado, los sistemas de recomendación se están transformando en motores de compatibilidad compatible, como el mismo utilizado en la industria de citas en línea.

Si quiere ser el primero en el “ámbito de la personalización” == Sistemas de recomendación basados ​​en la personalidad, ¡debe comprender primero cómo INNOVAR en la industria de citas en línea!

En Coursera puedes encontrar un curso integrado de 9 meses que es una combinación de 9 cursos. Completa eso, y no serás el mejor pero bueno en ciencia de datos básicos …
Feliz aprendizaje…

El primer proyecto que hice que involucró grandes cantidades de datos usando datos de Wikipedia para analizar texto. Escribí una respuesta al respecto aquí. Es un proyecto divertido y también tiene algunos aspectos desafiantes si eres nuevo en el análisis de datos.