¿Qué son los grandes datos y su uso?

(de los archivos de junio de 2013) [1]

Identifiquemos big data.

¿Qué hace grande a los grandes datos? El hecho de que ya no puede dar por sentado operar con él. Es así de simple. Hay varias dimensiones en las que sus datos se vuelven demasiado grandes para los britches que los compró. Y si has escuchado esto antes, perdóname, pero el consenso tiene que ver con la validación independiente de lo que otros están experimentando. Entonces, mi objetivo es encontrar el dolor cuando empiezo a diagnosticar qué tipo de dolores de cabeza de datos estás enfrentando.

En general, encuentro que las personas son mucho más específicas y consistentes cuando hablan sobre el dolor que cuando hablan sobre lo que esperan o lo que piensan que otras personas podrían estar pensando, así que tomemos el enfoque del dolor de cabeza para definir tipos específicos de grandes datos .

1. velocidad
Los datos se salen de control cuando tiene que procesarlos más rápido. Piense en esas ventanas de procesamiento para su SLA. ¿Qué es en tiempo real, casi en tiempo real? ¿Cuántos datos necesitas para ver que son muy recientes? ¿Existe un caso de uso para el análisis de eventos que han tenido lugar en las últimas dos horas? ¿30 minutos? ¿5 minutos? Cada base de datos puede procesar datos casi en tiempo real, pero ¿cuánto necesita procesarse cada minuto? Cuando esto llega a ser un dolor de cabeza, se trata de grandes datos.

2. Veracidad / Validez
Cuando tienes que procesar mil millones de registros, ¿cuántos de ellos son perfectos? Lo que significa que si un campo es falso, debe identificar esa celda dentro de la masa de datos que está procesando, registro por registro. Cuando se trata de la ingestión de la base de datos, es probable que no pueda segregar un millón de errores y luego volver a ejecutarlos por separado como una función estándar de la base de datos. Por lo tanto, debe diseñar un proceso que lo haga por usted. Cuando esto llega a ser un dolor de cabeza, se trata de grandes datos.

3. Variedad
En su sistema actual, hay algunos datos con los que tiene que lidiar que lo hacen estremecerse porque, de acuerdo con las reglas comerciales actuales, tiene que hacer seis pases sobre la mesa para clasificarlos correctamente. Afortunadamente, solo hay 500,000 de esos registros. Si esa sección de datos se agranda, tiene un problema. O qué tal esto. Algunos datos que tiene requieren 255 caracteres y no hay descripciones cortas. O algunos datos que posee poseen dos teclas cortas y 275 valores de coma flotante. Big data significa que estos ‘valores atípicos’ típicos ahora pueden existir en tamaños significativos. Si sus datos extraños se hacen más grandes, está tratando con datos grandes.

4. Hardware virtual
Obviamente, algunos números suenan grandes. Como estoy aprendiendo a pensar * realmente * en grande cuando considero que las capacidades de Amazon Redshift cambian. “Más de lo que tuve que lidiar” es en realidad lo suficientemente grande. Pero hablemos del tamaño de la máquina por un minuto. Érase una vez, The Gap estaba tocando sus pies esperando un OLAP que pudiera manejar una dimensión de un millón de miembros, para su comercialización. Pusieron a disposición la máquina individual más grande de Sun, un E9000 o algo así, y reajustaron nuestros procesos para que pudiéramos tener más de la caja que cualquier otro programa anterior. En otra ocasión, HP puso a disposición de mi equipo un procesador Superdome de 36 procesadores mientras procesábamos datos para un diseño en Boeing. En aquellos días, eso era enorme. Hoy, tanto el Sun como el HP podrían caber dentro del espacio de procesamiento de un clúster 8XL Redshift de cinco nodos con mucho espacio de sobra. Si no puede concebir la potencia de cálculo por encima de las casillas individuales, no importa cuán grandes puedan ser esas casillas, sus datos pronto pueden convertirse en un dolor de cabeza.

Permítanme ampliar este punto porque es el punto sobre el cual se articulan algunos aspectos económicos bastante serios, especialmente aquellos aspectos económicos sobre su trabajo en la empresa.

En la informática empresarial, siempre habrá condiciones de mercado impredecibles, datos de rendimiento del producto en evolución, cambios en los conjuntos de habilidades y conocimientos dentro de la gestión y el rango y el archivo, e información muy variable sobre los clientes, sin mencionar los informes de cumplimiento normativo. Eso significa que mantener su negocio al tanto de los datos que se generan en su industria siempre estará más allá de su capacidad, incluso si tiene todos los recursos de Fort Meade. Entonces, lo que se le ha permitido construir siempre ha estado limitado por el presupuesto, el tiempo y los recursos.

La revolución de Big Data se trata de implementar mejores herramientas y procesos que le permitan hacer más con menos. Si los nuevos productos y tecnología no amplían su capacidad, está desperdiciando tiempo, dinero y esfuerzo. Por lo tanto, la oportunidad debe considerarse en términos de lo que puede hacer (más) con estos nuevos avances.

Si los objetivos de su organización son reducir costos y mantener la misma funcionalidad, su trabajo está en riesgo de todos modos. No es la nube la que amenaza su posición, es la visión de su gerencia el valor de su trabajo para la empresa. Entonces, si se siente amenazado por la existencia de la computación en la nube, lo que debe hacer es comenzar a considerar las condiciones impredecibles del mercado, la evolución de los datos de rendimiento del producto, el cambio de las habilidades y las regulaciones en relación con su comprensión única de lo que está experimentando su empresa. Si no puede encontrar ideas para mejorar su administración, eso dice más sobre su empresa que sobre la nube. La nube está sucediendo. Presenta nuevas economías de escala que su empresa no tiene que pagar para investigar e innovar. La forma en que su empresa se aprovecha depende de la cultura de su empresa.

Notas al pie

[1] Big Data – Segunda parte

Cuando busca en Google el término big data , se define como “conjuntos de datos extremadamente grandes que pueden analizarse computacionalmente para revelar patrones, tendencias y asociaciones, especialmente en relación con el comportamiento y las interacciones humanas”.

Ahora analicemos eso en términos simples. Hoy vivimos en un mundo de big data. Cada aplicación, plataforma y herramienta produce toneladas de datos todo el día, todos los días. Esta información es extremadamente poderosa: puede ser un gran cambio de juego para las empresas, y puede hacerlas exponencialmente más efectivas y exitosas a largo plazo.

Para muchos, sin embargo, es demasiado; Con tanta información vertida en tantos formatos diferentes, simplemente no pueden organizarse y comprenderlo todo, y mucho menos usarlo para mejorar su negocio.

Dicho esto, si va a valer la pena, debe usarse. Esto significa que debe integrarse, centralizarse, transformarse y utilizarse para análisis (más información aquí). Y no es demasiado difícil: todo lo que se necesita es la herramienta ETL correcta, miembros del equipo capacitados y un plan de juego práctico.

VEA TAMBIÉN: Cómo construir una estrategia efectiva de inteligencia empresarial (BI) y fortalecer su negocio

Con eso, las empresas pueden comenzar a utilizar sus grandes datos para obtener información procesable y mejorar sus estrategias a largo plazo. Pueden saber exactamente:

  • Cómo está funcionando cada campaña
  • Donde están haciendo la mayor cantidad de conversiones
  • Donde hay margen de mejora
  • Y más.

Eso es big data bien hecho.

Hola,

Gracias por hacer la pregunta.

Big Data es una colección de gran cantidad de datos que requiere sistemas especiales de administración de bases de datos para analizar y extraer información de ellos.

Se utiliza porque consiste en una enorme cantidad de datos que pueden ser realmente útiles para las empresas y otras organizaciones.

Algunos usos de Big Data Analytics:

  1. Asistencia en la observación de nuevas tendencias
  2. Prever cambios en los patrones de demanda
  3. Determinación inteligente de precios

Algunos de los sectores que utilizan ampliamente Big Data son el cuidado de la salud, las finanzas, el comercio minorista, la hospitalidad, etc.

Si desea explorar más el espacio Big Data. Puedes consultar este enlace:

https://goo.gl/CqXycz

Espero que esto te ayude.

Big Data se refiere a datos que son Big

Técnicamente, llamamos a los datos como Big Data cuando satisface el NameLy de 3V

V elocidad
V olume
V ariedad

Más tarde, los datos se vuelven más y más sin el aumento del nombre de V

V ariability
V eracidad
V isualización
V alor

no tenemos ningún uso con Big Data ya que son datos que se almacenan en grandes volúmenes

El uso de Big Data surge cuando desea obtener información útil de That Data enorme en muy poco tiempo posible

Big Data se analiza utilizando una tecnología conocida como HADOOP

HADOOP utiliza una Metodología / MARCO conocido como MAPREDUCE para analizar los datos

Se construyeron muchas herramientas sobre HADOOP, lo que facilita la interacción del usuario con la metodología MAPREDUCE

Aprender Big Data significa aprender
cómo almacenar Big Data
Cómo mantener Hadoop
Cómo escribir el código MapReduce
cómo aplicar herramientas que convierten automáticamente tu código en MapReduce

P.ej:
CERDO:
Es una plataforma de lenguaje de procedimiento utilizada para desarrollar un script para las operaciones de MapReduce.

COLMENA:
Es una plataforma utilizada para desarrollar scripts de tipo SQL para realizar operaciones de MapReduce.

SQOOP:
Se utiliza para importar y exportar datos hacia y desde HDFS y RDBMS.

Gracias por tu pregunta 🙂 🙂

Hadoop es un marco de programación de código abierto basado en Java que admite el procesamiento y almacenamiento de conjuntos de datos extremadamente grandes en un entorno informático distribuido. Es parte del proyecto Apache patrocinado por la Apache Software Foundation.

No hay una definición única de lo que constituye Big Data. Una idea muy aproximada es simplemente que la cantidad de datos es demasiado grande para caber en la memoria de su computadora de escritorio. Sin embargo, eso realmente no le dice mucho a la naturaleza.

Su uso? Prácticamente cualquier cosa que se te ocurra. Puede extraer cualquier dato y usarlo para predecir algo. Por ejemplo, su compra para predecir lo que comprará a continuación (eso es lo que está haciendo Amazon). Si va a sufrir un ataque cardíaco dado su nivel de presión arterial (eso es lo que Apple Watch está tratando de hacer). Entonces, es realmente cualquier cosa que se te ocurra.

More Interesting

¿Qué tan útil es el big data, dado que la gente cambia?

¿Cuáles son los principios básicos del procesamiento del lenguaje natural?

¿Debo seguir escribiendo aplicaciones móviles o ciencia de datos?

El programa MSAN en USF se ve muy bien. Pero, ¿por qué el curso no se menciona en ninguno de los 10 mejores rankings de cursos de análisis empresarial?

¿Cuál es el futuro de la ciencia de datos en los próximos años? ¿Cómo es el mercado laboral en ciencia de datos para los graduados de nivel de entrada? ¿Es fácil de aprender, o necesitamos hacer más y más trabajo duro para conseguir un trabajo de nivel de entrada?

¿Cuáles son algunos paquetes de R que el científico de datos o un estadístico deben saber usar?

¿La ciencia de datos requiere más competencias que la ingeniería de software?

¿Qué es la optimización basada en sustitutos?

¿Es necesario obtener una maestría para trabajar en el área de ciencia de datos, si no tengo experiencia previa? ¿Los reclutadores valoran alguna certificación en ciencia de datos o buscan principalmente una maestría?

¿Qué quiere decir con límite de centro 30% de un dato dado en estadísticas?

¿Qué habilidades de análisis de datos requieren las grandes consultoras?

¿Utiliza bibliotecas o código usted mismo cuando usa un algoritmo de aprendizaje automático? ¿Qué hace un científico de datos con esto en su trabajo?

Siempre odié programar en idiomas de bajo nivel, ¿debería olvidarme de la ciencia de datos como una carrera potencial? Me refiero a C / C ++ en comparación con Matlab, R, Python

¿Cuál es el lenguaje de programación más común / importante para la ciencia de datos?

¿Cuáles son algunas de las aplicaciones más útiles para la minería de datos?