¿Cuáles son los desafíos en el procesamiento de grandes cantidades de datos (2017)?

El procesamiento de grandes cantidades de datos una vez ya no es difícil.

Tenemos la mayoría de las herramientas que necesitamos para resolver las soluciones más exactas en un tiempo razonable.

Lo que sigue siendo difícil es hacerlo de forma repetible, segura y gobernada.

Google y Facebook solo tienen que ser repetibles, pero realmente no tienen problemas reales de seguridad o gobernanza. No es trivial, pero aún es factible en 2017. Cuando tienes que hacer los tres, sigue siendo muy desafiante.

Uno debería arrojar la calidad de los datos en su propio espacio especial de gran desafío. Estoy tratando de encontrar un editor para un libro que quiero escribir específicamente sobre este tema porque creo que está muy descuidado. Todas las reglas que solíamos usar para la calidad de los datos ya no funcionan. Todas las herramientas de calidad existentes para la empresa lo están haciendo mal. Nunca he visto una solución de ninguno de los proveedores que sea útil.

Estoy pasando algún tiempo trabajando en este espacio problemático en particular. Estoy cerca de conseguir que la empresa para la que trabajo lo priorice para poder salir de la fase alfa. También será tedioso abrirlo con legal pero está en mi agenda.

La otra cosa a tener en cuenta es la cantidad de perspectivas que se utilizan en los datos. Por ejemplo, indexar todas las páginas web del mundo solía ser difícil. Ahora es un simple problema de perspectiva única. Los datos de flujo de clics también son principalmente un problema de perspectiva única. Segmentos mucho más pequeños de datos de flujo de clics pueden ser interesantes ya que se incluyen en el aprendizaje automático, pero eso generalmente es diferente.

Al intentar utilizar los mismos datos grandes para problemas muy dispares que se vuelven complicados. Específicamente cuando ninguna estrategia de partición es viable. Jugar juegos con múltiples soluciones de preagregación ya no es ideal. Ponen en peligro el tiempo de comercialización y son demasiado inflexibles para los negocios. Desafortunadamente, generalmente es lo mejor que podemos hacer. Algo realmente necesita cambiar aquí y aún no estoy seguro de qué es. Estoy pensando en un proveedor, pero para mí es demasiado nuevo.

More Interesting

¿Cómo debo diseñar mi curso en visión artificial / aprendizaje automático / robótica para mi maestría en EE?

En este mundo de análisis de datos de autoservicio, ¿cuál es el papel del profesional de datos de TI?

¿Qué proyectos interesantes de análisis de datos se han completado utilizando herramientas de redes sociales?

¿De dónde puedo aprender XGBoost? Quiero aprenderlo desde cero y no solo la implementación.

¿Cuáles son las 10 principales expectativas de los clientes de Big Data?

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático?

¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

¿Por qué funciona la ciencia de datos?

¿Qué se entiende por clasificación de datos?

Cómo pivotar mi carrera en ciencia de datos a los 38 años

Si necesito aprender ciencia de datos, ¿qué puedo aprender en el primer paso o de la A a la Z?

Si quiero desarrollar herramientas analíticas en tiempo real para mi sitio web y agregar recomendaciones basadas en objetivos en tiempo real, ¿cuál entre PredictionIO y EasyRec sería una mejor opción? ¿Hay otras opciones mejores (de código abierto) disponibles aparte de estas dos?

¿Cuáles son los recursos en línea más útiles (como capacitación, libros o certificaciones) para convertirse en un experto en arquitectura de Big Data?

¿Cuáles son las características en la minería de opinión?

Cómo ingresar al campo de análisis de datos