Cómo medir la calidad de un proyecto de ciencia de datos

Construir un proyecto de ciencia de datos es difícil. Lo he intentado durante varios meses, pero no es una tarea fácil. Sin embargo, trato de leer muchas sugerencias y blogs sobre cómo construir una cartera de proyectos personales. Aunque todavía no he implementado ningún proyecto, trato de tener en cuenta varias cosas en función de lo que he aprendido de aquellos con más experiencia.

  • Comprende tus datos. Tan simple como parece, se necesita mucho más que solo conocer las variables de su tabla (si corresponde). Este es el paso de investigación, que requiere largas horas de navegación en la web y lectura de documentación. Esta parte del proyecto le informará sobre la fuente de los datos, la naturaleza de los valores faltantes y lo llevará a obtener más información de fondo sobre los datos para que pueda establecer una buena idea y, con suerte, definir su pregunta. Solo después de que haya hecho esto, sabrá cómo abordar y enmarcar su problema. La medida de calidad aquí es su conocimiento de los datos y la pregunta que desea responder con ellos.
  • Buena documentación sobre la investigación que ha realizado y el código y las herramientas que utilizará. Aquí está resumiendo e introduciendo el problema de una manera más detallada. Es el producto de su investigación y el comienzo de su historia de datos. Esto también hará que sus hallazgos sean reproducibles. Lo que significa que cuantas más personas puedan estudiar y analizar sus hallazgos, mejor será. Uno de mis mentores me dijo una vez: “si hoy te atropelló un autobús, ¿podré continuar lo que empezaste mañana?”
  • La última idea que quiero mencionar está estrechamente relacionada con las demás y es, buena comunicación de resultados, es decir, historia de datos. Debería poder escribir y describir todo su proceso y resultados de manera muy clara. Muestre que ha definido su pregunta, investigado y documentado fuentes similares, y comuníquese claramente sobre cuál es su contribución. Una historia bien escrita y fácil de seguir será mucho más valiosa que solo demostrar que puede usar algoritmos de aprendizaje automático sofisticados.

La medida de calidad en general, creo que puede resumirse como su capacidad para compartir conocimientos y definir nuevas direcciones para la investigación y nuevos proyectos. Es por eso que crear sus propios proyectos y tener su cartera es difícil pero necesario.

La mayoría de nosotros nos quedamos atascados pensando demasiado en las herramientas, y nos olvidamos de pensar en el valor comercial de estos pequeños proyectos. Esto es contraproducente. Concéntrese en encontrar y definir una buena pregunta, apoyándola con la investigación y compartiendo sus hallazgos con otros de una manera atractiva. Los proyectos simples pueden tener una gran calidad si se consideran estas cosas.

More Interesting

¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son "grandes"?

¿Cómo podemos estar seguros de que podemos confiar en los científicos? ¿Cómo sabemos realmente que los científicos no son los clérigos modernos? Parece que la ciencia toma tanto la fe como la religión.

Quiero hacer un análisis de datos sobre datos sanitarios. ¿Dónde puedo encontrar estos conjuntos de datos?

¿Vale la pena organizar un concurso de dinero de Kaggle?

¿Por qué debería usar anaconda en lugar de las distribuciones tradicionales de Python para la ciencia de datos?

¿Dónde podemos encontrar conjuntos de datos para procesar? Quiero usar estos datos para mi proyecto Hadoop.

¿Cuáles son las sugerencias para un proyecto de análisis de datos para principiantes que usa Python y SQL (MySQL o SQL Server)?

¿Debería / puede una persona con casi 6 años de experiencia en investigación financiera aprender ciencia de datos? ¿Le ayudaría a avanzar en su carrera en investigación?

¿Qué antecedentes se requieren para la ciencia de datos?

Cómo comenzar a participar y prepararse en hackatones para la ciencia de datos

¿Cuánto durará la tendencia al alza en el campo de la ciencia de datos?

Seguridad de la información o ciencia de datos, ¿cuál elegir?

¿Por qué hay tanto énfasis en la ciencia de datos, pero no en la estrategia de datos?

¿Qué tan difícil es para un chico experimentado de 5 años cambiar a la carrera de ciencia de datos en India?

¿Cuál es la mejor manera de medir la acción para impactar en el análisis de datos?