El procesamiento de grandes cantidades de datos una vez ya no es difícil.
Tenemos la mayoría de las herramientas que necesitamos para resolver las soluciones más exactas en un tiempo razonable.
Lo que sigue siendo difícil es hacerlo de forma repetible, segura y gobernada.
- ¿Qué cursos debemos seguir para convertirnos en científicos de datos?
- ¿Cuáles son las perspectivas laborales para un estudiante internacional después de una maestría en ciencia de datos o análisis de datos en los Estados Unidos?
- ¿Existe alguna diferencia entre un científico de datos y el perfil ofrecido por Mu Sigma-Trainee Decision Scientist?
- ¿Debo incluir kaggle en mi Cv?
- Entre la criptografía y la seguridad de la red, el procesamiento de imágenes y la minería de datos, ¿qué 2 asignaturas son mejores como asignatura optativa?
Google y Facebook solo tienen que ser repetibles, pero realmente no tienen problemas reales de seguridad o gobernanza. No es trivial, pero aún es factible en 2017. Cuando tienes que hacer los tres, sigue siendo muy desafiante.
Uno debería arrojar la calidad de los datos en su propio espacio especial de gran desafío. Estoy tratando de encontrar un editor para un libro que quiero escribir específicamente sobre este tema porque creo que está muy descuidado. Todas las reglas que solíamos usar para la calidad de los datos ya no funcionan. Todas las herramientas de calidad existentes para la empresa lo están haciendo mal. Nunca he visto una solución de ninguno de los proveedores que sea útil.
Estoy pasando algún tiempo trabajando en este espacio problemático en particular. Estoy cerca de conseguir que la empresa para la que trabajo lo priorice para poder salir de la fase alfa. También será tedioso abrirlo con legal pero está en mi agenda.
La otra cosa a tener en cuenta es la cantidad de perspectivas que se utilizan en los datos. Por ejemplo, indexar todas las páginas web del mundo solía ser difícil. Ahora es un simple problema de perspectiva única. Los datos de flujo de clics también son principalmente un problema de perspectiva única. Segmentos mucho más pequeños de datos de flujo de clics pueden ser interesantes ya que se incluyen en el aprendizaje automático, pero eso generalmente es diferente.
Al intentar utilizar los mismos datos grandes para problemas muy dispares que se vuelven complicados. Específicamente cuando ninguna estrategia de partición es viable. Jugar juegos con múltiples soluciones de preagregación ya no es ideal. Ponen en peligro el tiempo de comercialización y son demasiado inflexibles para los negocios. Desafortunadamente, generalmente es lo mejor que podemos hacer. Algo realmente necesita cambiar aquí y aún no estoy seguro de qué es. Estoy pensando en un proveedor, pero para mí es demasiado nuevo.