Mi respuesta es: ¿qué le interesa?
“Data Science” es en gran parte una bolsa de herramientas algorítmicas (regresiones, redes neuronales, cadenas de Markov, estadísticas generales …) y programas que le permiten pegar sus datos de manera más o menos fácil en estos algoritmos (R, Python, Apache Spark, SQL , Excel …). Agregue un montón de frustrantes “tratar de limpiar datos desordenados y pegarlos en vectores” y obtendrá un día completo de trabajo.
Entonces, de nuevo, ¿en qué estás interesado? Porque si puede elegir algo, probablemente pueda comenzar a recopilar datos sobre él, limpiarlo, pegarlo en R / Python / etc. y luego ejecutar algunos algoritmos en él.
Aquí hay una historia …
Durante gran parte de mi tiempo en la escuela de posgrado, tuve un grupo de bebidas los viernes por la tarde con varios amigos. Nos ocupamos de obtener una amplia variedad de cervezas para nuestras sesiones, pero después de un tiempo comencé a sentirme muy frustrado porque a menudo apenas podía recordar qué cervezas me gustaban.
Finalmente, después de preguntarme por esto lo suficiente, comencé a tener un pequeño cuaderno conmigo donde grabaría las cervezas y les daría una calificación entre 1 y 10. Llevar el cuaderno conmigo comenzó a ser un poco complicado, así que Moví la información a una hoja de cálculo en mi computadora.
Alrededor de las cervezas 50ish grabadas, cada vez sentía más curiosidad acerca de cómo calificaba las cosas. Específicamente, ¿qué cervezas me gustaron? Bueno, después de un par de horas de investigación en línea, compilé una lista decente de diferentes estilos de cerveza y si eran cervezas o cervezas (siempre supe que había una diferencia fundamental entre las dos, pero nunca pude mantenerlas en orden. ¡También podría aprender ahora!). Mientras tanto, un amigo que me estaba aconsejando sobre cómo solicitar un empleo fuera de la escuela de posgrado me recomendó que eligiera SQL, así que escribí algunos scripts SQL en Python para intentar procesar los datos. Agrupe por cerveza o cerveza, tome una media, y como tendencia general, pude ver que en general me gustaban las cervezas mucho más que las cervezas, y a medida que agregaba cerveza tras cerveza a mi hoja de cálculo, esto se hizo cada vez más claro.
Siendo un poco aficionado a la cerveza, siempre existía la idea implícita de que la cerveza “artesanal” era mejor que “la gran cerveza industrial”. Pero, había leído el libro de Charles Bamforth “La cerveza es una prueba de que Dios nos ama” y el artículo del New Yorker sobre Dogfish Head, los cuales tenían prominentes maestros cerveceros que admitían admiración por la habilidad de Anhauser-Busch. ¿Cómo cuadro esta información? Bueno, una tarde más larga (esto requirió mucha búsqueda en Wikipedia) y sentí que tenía una lista bastante completa de qué marcas de cerveza eran propiedad de las grandes empresas (AB / InBev, SABMiller, Carlsberg, …) y cuáles eran independientes unos. Mientras tanto, mi amigo me recomendó que también aprendiera Python-Pandas, así que reescribí las cosas y algunas fusiones de marcos de datos más tarde, pude ver que, aunque SABMiller y MolsonCoors en general lo hicieron bastante mal, no pude ver ninguna diferencia estadística entre mis calificaciones de ” cervezas artesanales y las de Anhauser-Busch / InBev. Entonces, ahora tengo muchos más matices para mi esnobismo cervecero.
Surgieron más preguntas. ¿Me gustaron más las cervezas de un vaso o una botella? Fue difícil notar una diferencia real. ¿Las cervezas boozier obtienen una calificación más alta? En general si. ¿Qué países hacen la mejor cerveza? Bélgica, los EE. UU. Y el Reino Unido están en la cima, mientras que lugares como Alemania y Suiza son decepcionantemente bajos, pero, para citar a otro escritor de cerveza, “El Reinheitsgebot, qué carga de viejos b * llocks”.
Alguien podría decir “bueno, si estás interesado en rastrear cerveza, ¿por qué no usar Untappd?” Bueno, no habría aprendido mucho sobre el proceso si alguien más lo hubiera hecho por mí, y Untappd no proporciona la información que me interesa. Además, ¿tengo que darles $ 5 por una hoja de cálculo con mi propia información de cerveza? No.
Me tomé un descanso de este proyecto (más allá de registrar obedientemente todas las cervezas que bebo y varios fragmentos de información sobre ellas), pero hay más por hacer cuando vuelva a ello. Quiero hacer buenos mapas que muestren de dónde es la mejor cerveza (IMO). Quiero obtener algunos paquetes de seis y tener una comprensión más clara de cómo la temperatura a la que bebo una cerveza afecta mi calificación.
Pero, como parte de esto, he adquirido muchos conocimientos simplemente haciendo orgánicamente. Aprendí SQL y pandas, descubrí qué es una prueba de Kruskal-Wallis y descubrí algunas buenas maneras de hacer buenas tramas en matplotlib. Intentaré traducir lo que he hecho a R para aprender ese idioma, y trataré de descubrir mapas base (que todavía no entiendo completamente) para hacer mis tramas.
Y he aprendido mucho más sobre la cerveza. Cuál era realmente el punto.
PD: Nunca empieces a pensar en Big Data. Solo ve allí cuando tengas que hacerlo. https://www.chrisstucchio.com/bl…