¿En qué cosas tienen que pasar el tiempo los científicos de datos que preferirían no hacerlo?

  • Obtener acceso a los datos
    • Cuando está en otro sistema o almacén de datos y no se puede acceder directamente
    • O requiere autorización adicional y solicitudes de acceso asociadas
    • O requiere una interacción manual regular con otros equipos
  • Unir datos
    • Cuando no hay una clave de unión natural en diferentes conjuntos de datos, pero deben unirse
    • O el formato de los valores estándar como las marcas de tiempo no es estándar en los conjuntos de datos
    • O bien, el formato de un conjunto de datos no es coherente con el tiempo y debe cambiarse para incluso ser coherentemente “unible” consigo mismo
  • Transformando datos
    • Cuando está en un formato heredado inventado ad-hoc que no se puede leer sin escribir código personalizado
    • O usar una biblioteca heredada para leer correctamente
    • O abusa de un formato (piense: JSON incrustado en CSV)
  • Manejo de datos “malos”
    • Cuando faltan algunos valores
    • O los valores no tienen sentido (por ejemplo, 0 edad, ¿es eso realmente “nulo”)
    • O los valores no son estándar (por ejemplo, nulo o “NULO” o “NINGUNO” todos significan nulo)
    • O el significado no es ambiguo (por ejemplo, hora 13:45:01, ¿en qué zona horaria?)
    • O el significado no está completamente documentado (por ejemplo, el salario promedio que en realidad es “salario promedio para todos los empleados contratados después del 30 de junio que no son de tipo especial T”)
  • Mantenimiento y depuración del kit de herramientas
    • Cuando no puede obtener acceso a la herramienta o versión preferida en su infraestructura, o requiere una dependencia que no puede instalar
    • O porque la herramienta X tiene un error clave que tuvo que depurar y corregir y parchear manualmente
  • Administrando la organización
    • (Usualmente) exagerando sobre la herramienta: “¿no deberíamos estar usando una GPU / aprendizaje profundo / una base de datos gráfica / el gráfico social / sentimiento de Twitter / datos del sensor / transmisión en tiempo real / SQL en Hadoop / el nuevo servicio de ML alojado de hoy / esto ¿Qué dice que es mejor que Spark?
    • Decir “no” a las solicitudes de proyectos de análisis que es poco probable que sean factibles o valiosas

Defendiendo mi propia existencia.

Con la mayoría de las ocupaciones, las personas saben aproximadamente lo que haces y por qué la organización te necesita.

La ciencia de datos es una cosa nueva. Sorprendentemente, se encontrará con muchas personas que descartan todo el asunto como bombo, zumbido o simplemente falso.

Un CEO y multimillonario muy exitoso me dijo una vez que los pronósticos del tiempo nunca son precisos. Por lo tanto, no creía que pudiera proporcionar mucho valor a su empresa con algoritmos de aprendizaje automático. Traté de decirle que los pronósticos del tiempo en realidad pueden estimar el clima con bastante precisión dentro de un horizonte temporal de unos pocos días. Además, le aseguré que el problema que estaba tratando de resolver era mucho más simple que predecir el clima. Pero él no quiso escuchar. Había tomado una decisión.

A menos que trabaje en una empresa que ponga a la ciencia de datos a la vanguardia de la toma de decisiones, cada proyecto será un ejercicio para defender todo lo que haga. Constantemente necesita convencer a los tomadores de decisiones de que su trabajo puede tener un efecto real y no es solo un engaño ficticio. De lo contrario, su proyecto no se financiará.

Prefiero pasar menos tiempo convenciendo a la gente de que se debe iniciar un proyecto de ciencia de datos y más tiempo trabajando realmente en el proyecto.

Lo que más me frustra es obtener datos. Simplemente obtener los datos “en bruto” iniciales en mi computadora para hacer un prototipo … simplemente me molesta.

El segundo es cuando tengo que transformar datos usando funciones de ventana. O necesito aumentar mis habilidades en la transformación de datos o tanto la codificación como la ejecución siempre me llevan mucho tiempo. No es que no esté disfrutando el trabajo, en realidad me gusta hacerlo, pero creo que el costo de hacerlo es demasiado alto para el tipo de operación.

Ese último es seguimiento. Terminé algo, lo entregué y descubrí que o bien el problema no estaba enmarcado correctamente o que no me comunicaba (tanto a las personas como a las máquinas) con la suficiente claridad como para cerrar el proyecto.

Descifrando datos no documentados

Si acaba de realizar un experimento y quiere que analice sus datos, será mejor que pueda decirme

  1. Cómo muestreaste tus observaciones
  1. Usualmente vas a tener prejuicios aquí. Incluso si no lo ves, lo haré. Si no puede decirme cómo lo obtuvo, entonces tengo que adivinar en función de cómo se ven los datos. Una vez tuve que determinar que la mitad de los datos se recopilaron en los Estados Unidos y la otra mitad en China. Me llevó casi una hora darme cuenta de eso, una hora que podría haber pasado de manera mucho más productiva sin mirar los datos de distribución de altura para China.
  • Qué significan sus nombres de variables
  • Estos son algunos de los nombres de variables en un conjunto de datos con los que tuve que trabajar el otro día: PCIPNSA, PCPPNSA, PCPNSA, … Si me da nombres como este, es mejor que también me dé un glosario. De lo contrario, tengo que tratarlos como fuentes desconocidas y no puedo aplicar ningún conocimiento de dominio.

Básicamente, cualquier cosa totalmente innecesaria. Si tengo que redescubrir la información que ya tenemos, es una pérdida de tiempo.

Trabajando con una pregunta incompleta

Si me hace una pregunta, me concentraré en encontrarle una respuesta a esa pregunta. Hágame la pregunta para la que realmente desea la respuesta, no la pregunta en la que se convirtió después de aplicar su propia intuición.

Si me pide que averigüe por qué los estados conservadores tienen tasas de divorcio más altas, lo haré. Si me pregunta “¿está la diferencia de altura relacionada con las tasas de divorcio?”, Y recopilo y analizo los datos y determino que no, entonces no me pregunte “¿por qué los estados conservadores tienen tasas de divorcio más altas?”

Muchas veces verá gerentes que desean resolver un problema, decidir que la solución se encuentra en una determinada dirección y pedir a los científicos de datos que exploren esa dirección. Los científicos de datos luego trabajan con el objetivo equivocado en mente, lo que lleva a resultados subóptimos.

Una lista fuera de lugar:

  • Limpieza del conjunto de datos
  • Luchando con valores atípicos
  • Limpieza del conjunto de datos
  • Usando herramientas mal escritas y tuberías rotas
  • Limpieza del conjunto de datos
  • Esperando a que lleguen los datos debido a algunas complicaciones legales, de infraestructura u otras. Recibiéndolos solo para comprender que el conjunto de características y el formato son incorrectos
  • Hacer uso de lo que tiene, porque rara vez tiene suficientes puntos de datos relevantes
  • Hacer largos informes de estilo empresarial
  • Estar atrapado haciendo tareas mundanas con métodos antiguos en general, sin probar cosas interesantes de vez en cuando

¿Mencioné limpiar el conjunto de datos? Porque eso apesta.

Se requiere un análisis torturado para compensar la mala recopilación de datos. En muchos casos, esta situación se puede evitar al hablar con los científicos de datos desde el principio sobre qué datos recopilar / registrar / instrumento, en lugar de simplemente extraerlos al final.

Dilbert realmente lo resume muy bien.

Pasar demasiado tiempo haciendo diapositivas:

Un mal día de trabajo con datos incorrectos:

O distracciones con nuevas pilas de tecnología innecesarias pero brillantes:

Siendo la vida de la fiesta: