En un análisis de datos que ha realizado, ¿qué técnicas funcionaron y cuáles no?

Me encanta esta pregunta!

Cosas que funcionaron

Estamos trabajando en un modelo que permite a cualquier analista elegir cualquier proyecto de cualquier otro analista. Nuestro modelo se basa en este documento: una taxonomía de la ciencia de datos

El modelo nos obliga a definir una estrategia para cada proyecto de análisis de datos que tenemos. Esta estrategia define más o menos los conjuntos de datos que necesitamos y cómo vamos a abordar el análisis.

Las ganancias son tremendas. Es mucho más fácil mantener el código, trabajar en los proyectos de otras personas, discutir, revisar, presentar, etc.

Otra cosa es que lo mantengamos lo más simple posible. No usamos más complejidad de la necesaria. Si podemos resolver algo con la prueba, eso es lo que haremos.

Cosas que no funcionaron

No mantener nuestros proyectos como proyectos de software. Esto llevó a la confusión. Versiones desordenadas, paquetes incorrectos, etc. Resolver esto también es un problema ya que tenemos otras cosas que arreglar, por ejemplo, ¿cómo mantenemos los conjuntos de datos que son relevantes para un proyecto si solo queremos preservar el código en repositorios?

La técnica que menos éxito me ha dado es decidir sobre la técnica antes de analizar el problema. Si empiezo a pensar “¡Voy a ejecutar logits!” Antes de saber cuál es el problema, probablemente voy a arruinar algo. Peor aún es elegir una técnica porque es genial o elegante, sin pensar en el problema. Ahora, no solo soy estúpido, también soy arrogante.

Al construir una casa, comienza pensando en la casa, no en la caja de herramientas. Si primero saca un martillo de la caja de herramientas y luego busca cosas que pueda martillar, no va a construir una casa muy buena.

More Interesting

¿Cómo se puede pasar del nivel principiante avanzado al nivel intermedio en ciencia de datos?

¿Cómo manejan las empresas de big data la retención de datos?

¿Qué se requieren todos los lenguajes de programación para la ciencia de datos?

¿Cuál es el mejor lenguaje de programación para la ciencia de datos?

Cómo hacer que el aprendizaje del análisis de datos y el tema del algoritmo sea más fácil e interesante

¿Cómo puede un principiante aprender big data, aprendizaje profundo y aprendizaje automático de forma rápida y sencilla?

¿Qué tan difícil para un principiante de programación aprender tecnologías de ingeniería de datos?

¿Qué es el ERP? ¿Cómo apoya ERP a las empresas? ¿Es una herramienta que ayuda con el mantenimiento de registros y ofrece una instalación de almacenamiento de datos?

¿Cuál es el futuro de la ciencia de datos en los próximos años? ¿Cómo es el mercado laboral en ciencia de datos para los graduados de nivel de entrada? ¿Es fácil de aprender, o necesitamos hacer más y más trabajo duro para conseguir un trabajo de nivel de entrada?

Cómo medir la calidad de un proyecto de ciencia de datos

¿Cuáles son los grandes proyectos de datos en torno a craigslist?

Cómo convertirse en un científico de datos en 4-5 meses si no tengo experiencia previa con ningún lenguaje de programación

¿Cómo puedo convertirme en ingeniero de big data en Google?

¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?

¿Qué nuevas ideas puede proporcionar la ciencia de datos en los datos de transporte?