(de los archivos de junio de 2013) [1]
Identifiquemos big data.
¿Qué hace grande a los grandes datos? El hecho de que ya no puede dar por sentado operar con él. Es así de simple. Hay varias dimensiones en las que sus datos se vuelven demasiado grandes para los britches que los compró. Y si has escuchado esto antes, perdóname, pero el consenso tiene que ver con la validación independiente de lo que otros están experimentando. Entonces, mi objetivo es encontrar el dolor cuando empiezo a diagnosticar qué tipo de dolores de cabeza de datos estás enfrentando.
- ¿Cómo es el MTech en Data Science en SEAS, Universidad de Ahmedabad?
- ¿Cómo se pasa de ser un graduado en informática a un eventual científico de datos?
- ¿Completan los siguientes dos certificados en ciencia de datos lo suficiente como para ser competitivos para un trabajo de aprendizaje automático si estoy comenzando este campo desde cero?
- ¿Qué herramientas usan los científicos de datos para ver y seleccionar datos de archivos CSV?
- Cómo aprender Tableau, de 0 a 10, en unos pocos meses.
En general, encuentro que las personas son mucho más específicas y consistentes cuando hablan sobre el dolor que cuando hablan sobre lo que esperan o lo que piensan que otras personas podrían estar pensando, así que tomemos el enfoque del dolor de cabeza para definir tipos específicos de grandes datos .
1. velocidad
Los datos se salen de control cuando tiene que procesarlos más rápido. Piense en esas ventanas de procesamiento para su SLA. ¿Qué es en tiempo real, casi en tiempo real? ¿Cuántos datos necesitas para ver que son muy recientes? ¿Existe un caso de uso para el análisis de eventos que han tenido lugar en las últimas dos horas? ¿30 minutos? ¿5 minutos? Cada base de datos puede procesar datos casi en tiempo real, pero ¿cuánto necesita procesarse cada minuto? Cuando esto llega a ser un dolor de cabeza, se trata de grandes datos.
2. Veracidad / Validez
Cuando tienes que procesar mil millones de registros, ¿cuántos de ellos son perfectos? Lo que significa que si un campo es falso, debe identificar esa celda dentro de la masa de datos que está procesando, registro por registro. Cuando se trata de la ingestión de la base de datos, es probable que no pueda segregar un millón de errores y luego volver a ejecutarlos por separado como una función estándar de la base de datos. Por lo tanto, debe diseñar un proceso que lo haga por usted. Cuando esto llega a ser un dolor de cabeza, se trata de grandes datos.
3. Variedad
En su sistema actual, hay algunos datos con los que tiene que lidiar que lo hacen estremecerse porque, de acuerdo con las reglas comerciales actuales, tiene que hacer seis pases sobre la mesa para clasificarlos correctamente. Afortunadamente, solo hay 500,000 de esos registros. Si esa sección de datos se agranda, tiene un problema. O qué tal esto. Algunos datos que tiene requieren 255 caracteres y no hay descripciones cortas. O algunos datos que posee poseen dos teclas cortas y 275 valores de coma flotante. Big data significa que estos ‘valores atípicos’ típicos ahora pueden existir en tamaños significativos. Si sus datos extraños se hacen más grandes, está tratando con datos grandes.
4. Hardware virtual
Obviamente, algunos números suenan grandes. Como estoy aprendiendo a pensar * realmente * en grande cuando considero que las capacidades de Amazon Redshift cambian. “Más de lo que tuve que lidiar” es en realidad lo suficientemente grande. Pero hablemos del tamaño de la máquina por un minuto. Érase una vez, The Gap estaba tocando sus pies esperando un OLAP que pudiera manejar una dimensión de un millón de miembros, para su comercialización. Pusieron a disposición la máquina individual más grande de Sun, un E9000 o algo así, y reajustaron nuestros procesos para que pudiéramos tener más de la caja que cualquier otro programa anterior. En otra ocasión, HP puso a disposición de mi equipo un procesador Superdome de 36 procesadores mientras procesábamos datos para un diseño en Boeing. En aquellos días, eso era enorme. Hoy, tanto el Sun como el HP podrían caber dentro del espacio de procesamiento de un clúster 8XL Redshift de cinco nodos con mucho espacio de sobra. Si no puede concebir la potencia de cálculo por encima de las casillas individuales, no importa cuán grandes puedan ser esas casillas, sus datos pronto pueden convertirse en un dolor de cabeza.
Permítanme ampliar este punto porque es el punto sobre el cual se articulan algunos aspectos económicos bastante serios, especialmente aquellos aspectos económicos sobre su trabajo en la empresa.
En la informática empresarial, siempre habrá condiciones de mercado impredecibles, datos de rendimiento del producto en evolución, cambios en los conjuntos de habilidades y conocimientos dentro de la gestión y el rango y el archivo, e información muy variable sobre los clientes, sin mencionar los informes de cumplimiento normativo. Eso significa que mantener su negocio al tanto de los datos que se generan en su industria siempre estará más allá de su capacidad, incluso si tiene todos los recursos de Fort Meade. Entonces, lo que se le ha permitido construir siempre ha estado limitado por el presupuesto, el tiempo y los recursos.
La revolución de Big Data se trata de implementar mejores herramientas y procesos que le permitan hacer más con menos. Si los nuevos productos y tecnología no amplían su capacidad, está desperdiciando tiempo, dinero y esfuerzo. Por lo tanto, la oportunidad debe considerarse en términos de lo que puede hacer (más) con estos nuevos avances.
Si los objetivos de su organización son reducir costos y mantener la misma funcionalidad, su trabajo está en riesgo de todos modos. No es la nube la que amenaza su posición, es la visión de su gerencia el valor de su trabajo para la empresa. Entonces, si se siente amenazado por la existencia de la computación en la nube, lo que debe hacer es comenzar a considerar las condiciones impredecibles del mercado, la evolución de los datos de rendimiento del producto, el cambio de las habilidades y las regulaciones en relación con su comprensión única de lo que está experimentando su empresa. Si no puede encontrar ideas para mejorar su administración, eso dice más sobre su empresa que sobre la nube. La nube está sucediendo. Presenta nuevas economías de escala que su empresa no tiene que pagar para investigar e innovar. La forma en que su empresa se aprovecha depende de la cultura de su empresa.
Notas al pie
[1] Big Data – Segunda parte