¿Todos los científicos de datos participan en la visualización de datos?

¡Definitivamente deberían!

La ciencia de datos es inútil si no puede comunicar sus hallazgos a otros, y las visualizaciones son imprescindibles si está hablando con una audiencia no técnica. Si entra a una sala de juntas sin presentar ningún elemento visual, muy pronto se quedará sin trabajo.

Más que eso, las visualizaciones son muy útiles para los propios científicos de datos. Las representaciones visuales son mucho más intuitivas de comprender que las abstracciones numéricas. Eso es solo la naturaleza humana, seas o no un científico de datos.

Considere un conjunto de datos de series de tiempo como este:

Con solo mirar el gráfico durante dos segundos, reconocemos inmediatamente una tendencia estacional y una tendencia a largo plazo. Identificar esos patrones analizando solo los números requeriría descomponer la señal en varios pasos.

Respuesta corta, si.

La respuesta más larga es un poco más complicada, pero aún así sí, con muy pocas excepciones. Siempre que trabaje con datos, necesita tener algún método por el cual comprenda aspectos de los datos, como la distribución de valores, la correlación entre variables, etc. Sin embargo, mucho de este trabajo se puede hacer con estadísticas descriptivas. Puede ser increíblemente engañoso. Esta es una de mis visualizaciones favoritas de esa verdad, es el cuarteto de Anscombe. Desde la página de wikipedia: el cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen estadísticas descriptivas simples casi idénticas, pero parecen muy diferentes cuando se grafican.

Si no visualizara esto y, en su lugar, confiara en estadísticas descriptivas, estaría en problemas. ¡Los cuatro conjuntos de datos tienen la misma media de x e y, varianza muestral de x e y, correlación entre x e y la misma línea de regresión lineal!

Para realmente llevar el punto a casa, aquí como una extensión reciente del cuarteto de Anscombe … Creado por la investigación de Autodesk, ¡aquí está Datasaurus Dozen! Todas estas docenas de conjuntos de datos comparten las mismas estadísticas descriptivas, pero cuando se visualizan, son claramente muy diferentes.

 La visualización de datos es una herramienta poderosa en el proceso de ciencia de datos tanto para el análisis exploratorio como para la validación del modelo. Si bien estoy seguro de que es posible hacer ciencia de datos sin visualización (como es posible hacer ciencia de datos sin aprendizaje automático, por ejemplo) es un caso marginal poco común.

Absolutamente sí.

Como científico de datos, necesita visualizar los resultados de su análisis para comprenderlo mejor.

En este sentido, la visualización es una parte muy importante del proceso de análisis de datos y simplemente no puede prescindir de ella en algunos dominios de datos. Por ejemplo, si está analizando datos de ubicación como imágenes geoetiquetadas o tweets geoetiquetados, la visualización de datos es crucial. Si no visualiza los datos en un mapa, ni siquiera puede imaginar de qué se tratan esos datos e inferir o comprender algo útil al respecto.

La siguiente imagen muestra una visualización de datos georreferenciados de diferentes redes sociales, uno de cada color. Al ordenar los datos por marca de tiempo, se puede ver la pista del usuario.

Feliz aprendizaje 🙂

Sí, es un componente muy importante para comprender sus datos. Ver es creer. Una imagen habla mil palabras. Las visualizaciones son útiles tanto en las etapas de preprocesamiento como de postprocesamiento. Nos ayudan a comprender nuestros conjuntos de datos y resultados en forma de formas y objetos que de alguna manera son más reales para el cerebro humano. Ej: una línea de tendencia es mucho más fácil de interpretar que los mismos datos en filas y columnas. Del mismo modo, arroje una entidad en un mapa con el resto de la información sobre esa entidad y de alguna manera es más real que una fila de datos sobre esa entidad.

Para todos los fines prácticos … sí, la visualización es una parte absolutamente esencial del trabajo.

Hay dos lugares donde lo necesitas. En primer lugar, debe comprender los datos usted mismo, por lo que debe crear visualizaciones que probablemente nunca se compartirán. En segundo lugar, necesita transmitir la historia de los datos y la visualización suele ser la mejor manera de hacerlo.