Construir un proyecto de ciencia de datos es difícil. Lo he intentado durante varios meses, pero no es una tarea fácil. Sin embargo, trato de leer muchas sugerencias y blogs sobre cómo construir una cartera de proyectos personales. Aunque todavía no he implementado ningún proyecto, trato de tener en cuenta varias cosas en función de lo que he aprendido de aquellos con más experiencia.
- Comprende tus datos. Tan simple como parece, se necesita mucho más que solo conocer las variables de su tabla (si corresponde). Este es el paso de investigación, que requiere largas horas de navegación en la web y lectura de documentación. Esta parte del proyecto le informará sobre la fuente de los datos, la naturaleza de los valores faltantes y lo llevará a obtener más información de fondo sobre los datos para que pueda establecer una buena idea y, con suerte, definir su pregunta. Solo después de que haya hecho esto, sabrá cómo abordar y enmarcar su problema. La medida de calidad aquí es su conocimiento de los datos y la pregunta que desea responder con ellos.
- Buena documentación sobre la investigación que ha realizado y el código y las herramientas que utilizará. Aquí está resumiendo e introduciendo el problema de una manera más detallada. Es el producto de su investigación y el comienzo de su historia de datos. Esto también hará que sus hallazgos sean reproducibles. Lo que significa que cuantas más personas puedan estudiar y analizar sus hallazgos, mejor será. Uno de mis mentores me dijo una vez: “si hoy te atropelló un autobús, ¿podré continuar lo que empezaste mañana?”
- La última idea que quiero mencionar está estrechamente relacionada con las demás y es, buena comunicación de resultados, es decir, historia de datos. Debería poder escribir y describir todo su proceso y resultados de manera muy clara. Muestre que ha definido su pregunta, investigado y documentado fuentes similares, y comuníquese claramente sobre cuál es su contribución. Una historia bien escrita y fácil de seguir será mucho más valiosa que solo demostrar que puede usar algoritmos de aprendizaje automático sofisticados.
La medida de calidad en general, creo que puede resumirse como su capacidad para compartir conocimientos y definir nuevas direcciones para la investigación y nuevos proyectos. Es por eso que crear sus propios proyectos y tener su cartera es difícil pero necesario.
La mayoría de nosotros nos quedamos atascados pensando demasiado en las herramientas, y nos olvidamos de pensar en el valor comercial de estos pequeños proyectos. Esto es contraproducente. Concéntrese en encontrar y definir una buena pregunta, apoyándola con la investigación y compartiendo sus hallazgos con otros de una manera atractiva. Los proyectos simples pueden tener una gran calidad si se consideran estas cosas.
- ¿Qué temas aprendiste como parte de un curso de ciencias de datos durante tu maestría en los Estados Unidos? ¿Cuáles son algunas sugerencias que me ayudarían a convertirme en un científico de datos exitoso?
- ¿Quiénes son los mejores expertos en aprendizaje automático (ML)?
- ¿Cuál es la mejor manera de crear una extensión simple de Chrome que almacene una base de datos y revele los resultados relevantes cuando se busca?
- ¿Cuáles son los buenos MOOC disponibles para aprender Data Science en YouTube?
- ¿Es el Internet de las cosas más sobre programación embebida o ciencia de datos?