Cómo desarrollar la intuición de datos

Me alegra saber que los empleadores están mencionando esto. Siempre es importante para mí cuando contrato personas, pero mi impresión es que se enfatiza demasiado poco en comparación con las habilidades de codificación y el conocimiento de algoritmos por parte de los empleadores en general. (Personalmente, preferiría tener una persona entrenable inteligente con habilidades técnicas débiles pero excelente intuición de datos que lo contrario).
Creo que la intuición de datos es parcialmente aprendida y parcialmente innata, como ser capaz de disparar bien en el baloncesto o pegar bien en el béisbol. Creo que Edward Schwab está justo en el blanco en que la parte que se puede aprender viene a través de la práctica. Pero para agregar a eso, cuando practicas necesitas mirar los datos con gran curiosidad y disposición para ensuciarte las manos. Con eso quiero decir que no solo confía en su algoritmo, sino que desea ver sus datos desde todas las direcciones y en todos los niveles. Tiene curiosidad acerca de cómo organizar sus datos o segmentar su modelo cambia los resultados de manera diferente. Usted está interesado en cómo se ven sus datos en el nivel de registro y qué cosas parecen estar relacionadas con qué otras cosas. Si su algoritmo encuentra una relación que es una sorpresa para usted, desea verlo usted mismo agregando y graficando los datos de diferentes maneras hasta que se revele.

Siempre trato de evaluar el lado intuitivo en una entrevista para puestos de tipo científico de datos / analista, y creo que generalmente puedo hacer un buen trabajo al respecto. Parte de la evaluación de la intuición de datos también es intuitiva. En general, puede tener una idea de cómo alguien piensa acerca de los problemas de la ciencia de datos si habla con ellos de algunos proyectos anteriores. Aquí hay una cosa específica que he encontrado diciendo. Cuando alguien habla de un proyecto anterior y me cuenta los detalles de lo que trabajaron, los algoritmos que usaron, etc. Si es algo que tiene sentido (por ejemplo, predecir la taquilla de la película en lugar de interpretar una imagen visual) y lo hacen Sin mencionar que a menudo les pregunto algo como cuál fue la relación más interesante que encontraron en los datos. Si alguien puede recordar lo suficiente como para hablar sobre algoritmos y fuentes de datos pero no tiene idea de qué relaciones existen en sus datos, para mí eso es una mala señal. Por otro lado, si alguien se entusiasma con la respuesta y me cuenta una idea interesante que es una gran ventaja. También tengo una o dos preguntas preparadas en mi bolsillo trasero (por ejemplo, mire este gráfico: ¿podría ser engañoso? ¿Dime por qué puede ser engañoso?) Que pueden llegar a la intuición de datos. A menudo se nota por la forma en que hablan. No hay nada de malo en saber mucho acerca de la técnica y dedicar un poco de tiempo a hablar de ello, pero si está demasiado centrado en la técnica e ignora por completo los datos y la pregunta comercial al hablar de problemas pasados ​​o hipotéticos, me preocupa la intuición de los datos. .

Permítanme dar un ejemplo muy reciente de lo que la intuición de datos significa para mí que solo estaba trabajando con alguien en mi equipo: es de esperar que brinde información sobre qué tipo de cosas mirar para desarrollarlo y qué tipo de cosas podrían revelar bajo / alta intuición en una entrevista. Hay un problema de series temporales en el que estamos trabajando. Tanto por las diferencias que surgen cuando se ejecutan las cosas de diferentes maneras como por la magnitud de los coeficientes, me siento escéptico sobre la solidez y la precisión del resultado. Una cosa que hacemos es comparar los resultados agregados diarios con los resultados a nivel del cliente y las relaciones son bastante diferentes. ¿Por qué es esto? La intuición debería tener algo que ver con la variación entre individuos dentro de un día. Dado que la variable independiente en cuestión es una que debería basarse en la política en ese momento, la siguiente pregunta debería ser ¿por qué los individuos varían dentro de un día en esa variable? Resulta que cuando se investiga más a fondo, existen algunas razones confusas para la variación que podrían causar una correlación que no tiene nada que ver con la relación causal que estamos buscando. En este punto, los resultados contradictorios comenzaron a tener mucho sentido. La dimensión de la intuición en esta historia es: 1) saber cuándo ser escéptico 2) tener el instinto de probar diferentes métodos / diseños de datos comprender su resultado 3) saber dónde buscar para tratar de conciliar resultados contradictorios, y 4) tener una buena sensación por qué cosas pueden ser causas probables de ello.

También soy un aspirante a científico de datos, aunque he trabajado con visualización de datos y análisis de datos en un rol de ventas de SaaS anterior. Durante el último mes y medio más o menos, he estado estudiando estadísticas profundamente, aprendiendo más matemáticas y aprendiendo a codificar en Python y R. Lo que descubrí es que poco a poco he estado desarrollando la intuición de los datos. Creo que solo necesita mirar TONELADAS de conjuntos de datos, jugar con ellos, descubrir qué hace, comprender el tipo de preguntas que puede hacer y fallar un montón de veces. Una vez que se haya expuesto a suficientes conjuntos de datos, haya jugado con suficientes datos, ejecute algoritmos y simplemente entienda lo que se puede hacer, desarrollará la intuición para conocer las preguntas correctas y los algoritmos correctos para diferentes aplicaciones.

¡Buena suerte para ti! Estoy en el mismo camino, y es MUY difícil, ¡pero absolutamente fascinante!

Necesita buenas prácticas para diferenciar datos, información, concepto, conocimiento y sabiduría. Mira mi semántica en escalera.