¿Cuál es una buena definición de big data?

En términos muy simples, Big Data es un gran volumen de conjuntos de datos con alta velocidad y una variedad diferente de activos de información. Para ser exactos, los datos en el rango de cientos de TB entran en la categoría Big Data.

Este Big Data se genera a partir de cada una de sus interacciones con internet directa o indirectamente. Se genera a partir de sus actividades de redes sociales, transacciones, correos electrónicos, sensores, compras de comercio electrónico, desde diferentes lugares que visita, como hospitales, restaurantes, centros comerciales, etc.

Big Data también se genera a partir de actividades no humanas como aviones, automóviles automáticos, automóviles, postes de electricidad, etc.

Varios casos de uso de Big Data

  • Netflix utiliza Big Data para mejorar la experiencia del cliente
  • Promoción y análisis de campaña por Sears Holding
  • Análisis de los sentimientos
  • Análisis de rotación de clientes
  • Análisis predictivo
  • Anuncios y publicación de anuncios en tiempo real

Comprendamos esto con el ejemplo del análisis de sentimientos

Una gran compañía aérea comenzó a monitorear tweets sobre sus vuelos para ver cómo se sienten los clientes sobre las actualizaciones, los nuevos aviones, el entretenimiento, etc. Nada especial allí, excepto cuando comenzaron a enviar esta información a su plataforma de atención al cliente y a resolverlos en tiempo real.

Una instancia memorable ocurrió cuando un cliente tuiteó negativamente sobre el equipaje perdido antes de abordar su vuelo de conexión. Recogen los tweets (que tienen problemas) y le ofrecen una actualización gratuita de primera clase en el camino de regreso. También rastrearon el equipaje y dieron información sobre dónde estaba y dónde lo entregarían.

No hace falta decir que estaba bastante sorprendido al respecto y tuiteó como un campista feliz durante el resto de su viaje.

El análisis de sentimientos es el análisis detrás de la sustancia de datos. Una tarea básica en el análisis de sentimientos es clasificar la polaridad de un texto dado a nivel de documento, oración o característica / aspecto, ya sea que la opinión expresada en un documento, una oración o una característica / aspecto de entidad sea positiva, negativa o neutral. La clasificación avanzada de sentimientos “más allá de la polaridad” se refiere, por ejemplo, a estados emocionales como “enojado”, “triste” y “feliz”.

Lea sobre los casos de uso de Big Data en detalle

¿Cómo llegó Big Data a la imagen?

Esta información o Big Data necesita una plataforma innovadora para una mejor comprensión, comprensión y toma de decisiones.

Pero,

El 90% de los datos que se generan hoy en día no están estructurados y nuestras tecnologías tradicionales no pueden manejarlos.

La velocidad y las formas en que se genera Big Data dificulta la administración y el procesamiento a través de las tecnologías tradicionales de administración de DataBase. Aquí viene el papel de varias herramientas y tecnologías de big data como Hadoop.

Apache Hadoop es la herramienta de Big Data más popular y poderosa. Proporciona la capa de almacenamiento más confiable del mundo: HDFS, motor de procesamiento: MapReduce y capa de administración de recursos: Yarn que resuelve todos los problemas de big data.

La imagen muestra algunas de las características de Hadoop que han ayudado a administrar Big DataVer para carreras y roles laborales en Big Data

Ver carreras y roles laborales en Big Data

SI te gusta la respuesta, por favor, UPVOTE y sigue mi cuenta Shailna Patidar para mis respuestas regulares en Big DAta nad Hadoop.

“Big Data” es un volumen de datos que las soluciones convencionales ya no pueden manejar.

La tecnología ha crecido para satisfacer las necesidades del mundo global y conectado. En la actualidad, las empresas tecnológicas tienen como objetivo llegar a la mayor cantidad de usuarios posible. Otros negocios, no (principalmente) relacionados con la tecnología, han descubierto la necesidad de invertir en nuevas tecnologías para poder seguir siendo competitivos, comprender a sus clientes / clientes y, en última instancia, seguir siendo relevantes.

Mientras que antes tenía una computadora que se ocupaba de todo, y si necesitaba más energía (como RAM o espacio en disco, por ejemplo), simplemente le arrojaría hardware – Esto se llama escala vertical – Eventualmente llega un punto donde su la computadora ya no puede manejarlo, realmente, solo hay mucho que puede hacer para actualizar una sola máquina (¡sin mencionar los costos!). Entonces tendría que mudarse a una computadora mejor y más costosa para mantener las cosas en funcionamiento, y esto es problemático en muchos frentes. Sus costos suben. Te vuelves dependiente de una arquitectura monolítica. Enfrenta el tiempo de inactividad mientras mueves todo. Su sistema grita falla de punto único … Etc, etc.

En estos días, se trata de escala horizontal . ¿Necesitas más poder? Lanza otra computadora (a menudo lo suficientemente barata). ¿Una de sus máquinas está caída? Eso está bien, los otros todavía están despiertos. Esto también se aplica al software . ¿Necesita una solución de base de datos distribuida que pueda escalar fácilmente al tamaño que crezcan sus datos? Cassandra, MongoDB, HBase, Redis … etc. ¿Necesita hacer un análisis de datos sobre grandes cantidades de datos que ninguna máquina debería poder manejar? Spark, Hadoop, Storm … etc.

El “Big Data” proviene de la necesidad de las empresas de escalar horizontalmente sus recursos tecnológicos. Si está recopilando, almacenando y / o analizando datos a un ritmo que una máquina singular no puede manejar, y ha agotado las actualizaciones singulares realistas que puede hacer, probablemente esté manejando grandes datos.

No estoy seguro si puedo dar ‘Buena definición’ pero seguramente será simple.

La población mundial en abril de 2018 era de 7,6 mil millones de personas, de las cuales el 77% usa internet. Las personas constantemente navegan por los sitios, hacen compras, reservan ofertas, etc. ¡ Imagínense los datos creados por estos millones de personas!

Ahora, desde el punto de vista comercial , no es posible mantener manualmente una pestaña sobre todos los que han visto o están interesados ​​en su contenido / campañas. Por lo tanto, para comprender mejor los patrones y las tendencias del cliente en el mercado , es necesario analizar estos datos.

El método en línea de análisis de datos es el análisis de big data . Está destinado a todas las grandes o pequeñas empresas.

En palabras técnicas, es información voluminosa o estadísticas relevantes adquiridas por empresas, empresas y grandes organizaciones. Se han formulado múltiples softwares y almacenamientos de datos (computadoras, servidores, etc.) para su procesamiento.

A continuación se muestran los 4V de Big Data:

  • Volumen : es la cantidad de datos recopilados, generados y almacenados.
  • Velocidad : la velocidad a la que se reciben todos estos datos y también se actúa sobre ellos.
  • Variedad : la variedad se refiere a cómo esta entrada continua, la naturaleza y el tipo de datos no estructurados.
  • Valor : cada bit de información recibida tiene valor. Para profundizar se utilizan múltiples técnicas cuantitativas para datos no estructurados.

Las 4 V anteriores de big data son cruciales para recopilar, almacenar, analizar, administrar y consumir grandes conjuntos de información.

Si desea conocer más detalles, puede consultar esto: https://goo.gl/WzmTr6

Para lecturas interesantes:

Bueno ……… Para responder a esta pregunta, necesitamos pasar por algunas definiciones anteriores de Big Data

Según lo definido por Dan Ariely

“Big Data es sexo adolescente: todo el mundo habla de ello, nadie sabe realmente cómo hacerlo, todos los demás lo están haciendo, y todos afirman que lo están haciendo ……”

Pero necesitamos una definición real de la misma, así que recurro a mi amigo de confianza Wikipedia y dice …

“Big Data es una colección de conjuntos de datos tan grandes y complejos que resulta difícil procesarlos utilizando herramientas de administración de bases de datos disponibles o una aplicación de procesamiento de datos tradicional”.

Según la definición anterior, obtuvimos dos elementos importantes de Big Data.

  1. Volumen de datos
  2. Complejidad del procesamiento de esos datos.

Luego recurrí a O’Reilly Media

“Big data es información que excede la capacidad de procesamiento de los sistemas de bases de datos convencionales. Los datos son demasiado grandes, se mueven demasiado rápido o no se ajustan a las estructuras de las arquitecturas de su base de datos. Para obtener valor de estos datos, debe elegir una forma alternativa de procesarlos “.

La definición anterior es más similar a Wikipedia … Sin embargo, agrega un nuevo elemento.

  1. Demasiado grande
  2. Se mueve rápido

Luego me mudé a Doug Laney de Gartner

“Activos de información de gran volumen, alta velocidad y / o gran variedad que exigen formas rentables e innovadoras de procesamiento de información que permitan una mejor comprensión, toma de decisiones y automatización de procesos”.

En lo anterior nos referimos Gartner,

  1. Tamaño de datos (gran volumen)
  2. Velocidad con la que se generan los datos (velocidad)
  3. Diferentes tipos de datos (variedad)

En la siguiente parada, considero la definición de Mike Gualtieri de Forrester.

“Big Data es la frontera de la capacidad de una empresa para almacenar, procesar y acceder (SPA) a todos los datos que necesita para operar de manera efectiva, tomar decisiones, reducir riesgos y atender a los clientes”.

Aquí Mike refiriéndose,

  1. Datos que están fuera del alcance actual de esa empresa para almacenar
  2. Proceso
  3. Acceso

Así que ahora, si lo ponemos en pocas palabras, derivaré en la siguiente definición de Big Data

“Big Data es de gran volumen, no en un solo tipo (estructurado y una variedad de estructurado, no estructurado, etc.), generado a una velocidad mucho más rápida que cualquier otro dato en el pasado y requiere nuevas formas de almacenar, procesar, analizar, visualizar y integrar.”

¡Espero que encuentres esto útil!

¿Qué es el Big Data? por Swapnil Yeolekar en Voynich

La definición fácil de Big Data, Business Intelligence y Analytics

Big Data Analítica. Minería de datos. Inteligencia de Negocio. Hmmm

Pregunte a diez personas qué significan estos términos y es probable que obtenga quince respuestas diferentes. ¿Alguna vez quisiste una explicación simple de cada uno y cómo difieren (probablemente, ya que estás leyendo esto :)? Dejame explicar. (Para aquellos que desean una respuesta más detallada, consulte mi publicación reciente aquí: BI, Big Data, análisis: ¿Cuál es la diferencia? – Clear Peak)

[Los súper técnicos no siguen leyendo, lo siguiente te volverá loco].

En términos simples …

Business Intelligence (BI) es un método para comprender cómo le está yendo a una empresa al observar los datos en sus sistemas informáticos. Por ejemplo, si una empresa ejecutaba Salesforce.com: la plataforma de éxito del cliente para hacer crecer su negocio: la plataforma de éxito del cliente para hacer crecer su negocio para rastrear su actividad de ventas y SAP u Oracle para rastrear sus libros financieros, la inteligencia de negocios puede extraer los datos desde ambos sistemas en una única base de datos integrada (contenedor) y proporciona una vista simplificada de la información. Piense mirando al revés el desempeño de la compañía en múltiples sistemas en cuadros y gráficos. La tecnología se vuelve compleja pero el concepto es sencillo. Por cierto, los profesionales en tecnología de la información (TI) consideran que este tipo de datos están “estructurados”, que es otra forma de decir que los datos se encuentran en contenedores (de base de datos) que son fáciles de entender (bueno … al menos para nerds como yo) .

Por el contrario, Big Data es un método para comprender los patrones y comportamientos de las personas, como los clics en aplicaciones de redes sociales y sitios web corporativos (entre muchos otros). ¿Por qué una empresa querría hacer eso? Para que puedan determinar qué quieren los clientes (en función de su comportamiento) y brindarles una mejor experiencia “digital” para que puedan comprar más con el tiempo. A medida que la publicidad se traslada a las aplicaciones y a la web, esta capacidad se vuelve cada vez más importante a medida que se venden a usted y a mí. Por cierto, los profesionales en TI consideran que este tipo de datos son “no estructurados”, que es otra forma de decir que los datos se encuentran en archivos sueltos que deben recopilarse, integrarse y analizarse. Piense en tomar cientos de miles de notas escritas a mano y buscar información tiende a atravesarlas. Doloroso ¿verdad?

La minería de datos es un método para aplicar las matemáticas a grandes conjuntos de datos y encontrar tendencias útiles o interesantes. Piense en buscar “tendencias desconocidas conocidas” (tendencias que desea comprender pero que no ha resuelto) y “tendencias desconocidas desconocidas” (tendencias que no sabía buscar). La minería de datos puede ocurrir sobre los sistemas de BI y Big Data o cualquier otra base de datos ordinaria. La magia está en la capacidad de identificar cosas que suben o bajan juntas a través de conjuntos de datos que son simplemente demasiado grandes para que los humanos puedan clasificarlos. Es algo poderoso (especialmente para geeks como yo).

La analítica es un método para visualizar datos de una manera fácil de entender. Piense en un mapa de calor o diagrama de clúster. Nuestros cerebros están conectados para comprender imágenes y “los datos como una imagen” es de lo que se trata la analítica. Analytics puede ubicarse sobre los sistemas de BI y Big Data o cualquier otra base de datos ordinaria. Los análisis pueden contar historias con datos que no entenderemos de otra manera. Ahora esto es algo que todos podemos “entender”.

[ver más haciendo clic aquí]

Hola,

Big Data es lo último en el mercado de TI que está ganando mucha tracción. La mayoría de las organizaciones lo utilizan para mejorar sus procesos con el fin de ser más delgados y comprender mejor a sus clientes. Por lo tanto, ganar ventaja competitiva sobre los competidores y aumentar las ganancias.

Big Data es una colección de gran cantidad de datos que requiere sistemas especiales de gestión de bases de datos para analizar y extraer información útil de ellos. El análisis y las ideas de estos datos se consideran Big Data Analytics .

Big Data Analytics se centra en generar información útil a partir de un conjunto de datos disponible. El único propósito universal es resolver consultas y poder tomar decisiones favorables para los negocios. Además, el uso de consultas y diversos procesos relacionados con la agregación de datos son parte de Data Analytics.

La mayoría de las personas tiene alguna idea de que las empresas están utilizando big data para comprender mejor y dirigirse a los clientes. Utilizando Big Data, los minoristas pueden predecir qué productos se venderán, las compañías de telecomunicaciones pueden predecir si un cliente podría cambiar de operador y cuándo, y las compañías de seguros de automóviles entienden qué tan bien conducen sus clientes.

A continuación se presentan algunas aplicaciones de Big Data:

  • El análisis de Big Data nos permite encontrar nuevas curas y comprender y predecir mejor la propagación de enfermedades.
  • La policía utiliza herramientas de big data para atrapar delincuentes e incluso predecir actividades criminales.
  • Las compañías de tarjetas de crédito utilizan el análisis de big data para detectar transacciones fraudulentas.
  • Varias ciudades incluso están utilizando análisis de big data con el objetivo de convertirse en Smart Cities, donde un autobús sabría esperar un tren retrasado y donde las señales de tráfico predicen los volúmenes de tráfico y operan para minimizar los atascos.

La razón principal por la que los grandes datos son importantes para todos es su aplicación en casi todos los campos. Está afectando la vida de todos de una manera u otra.

Espero que esto responda a su pregunta.

Para saber más sobre Big Data y temas relacionados , consulte el siguiente enlace. Es realmente útil

https://goo.gl/tJihdQ

La mejor definición que he encontrado hasta la fecha proviene de Mike Loukides en una publicación de O’Reilly Radar del año pasado:
“big data” es cuando el tamaño de los datos se convierte en parte del problema

La publicación está en: http://radar.oreilly.com/2010/06

y O’Reilly también lo hizo disponible como un informe PDF en: http://cdn.oreilly.com/radar/201

Relacionado con eso está la definición de Edd Dumbill en una publicación de radar de seguimiento sobre herramientas y enfoques para resolver problemas de big data:
“Big data” son datos que se vuelven lo suficientemente grandes como para que no puedan procesarse utilizando métodos convencionales

La publicación completa de Edd discute los desafíos y describe una “pila SMAQ” para superarlos. Está en: http://radar.oreilly.com/2010/09

Recomiendo leer ambos.

Depende de a quién le preguntes. Los especialistas en marketing tendrán una definición completamente diferente en comparación con los ingenieros, por ejemplo. A menudo digo que los grandes datos son cuando tienes que distribuir la carga de almacenar y operar datos en varias máquinas, dada la velocidad, el volumen y la variedad de los datos.

Para mí esa es la mejor definición de big data. No es el nombre del sistema o la tecnología lo que lo define, es su uso. Si la velocidad y / o el volumen y / o la variedad no necesitan ser distribuidos, no es un gran dato. Por ejemplo, puede tener Spark o Hadoop ejecutándose en su computadora portátil … no es un gran dato. Si necesita distribuirlo usando esos sistemas (y otros, hay muchos), entonces es un gran dato.

¿Qué es BigData?

en resumen, todos los datos, ya sean categorizados o no, presentes en sus servidores se denominan colectivamente BIG DATA . Todos estos datos se pueden utilizar para obtener diferentes resultados utilizando diferentes tipos de análisis. No es necesario que todos los análisis usen todos los datos. El análisis diferente utiliza diferentes partes de BIG DATA para producir los resultados y las predicciones necesarias.

Big data se refiere a un proceso que se utiliza cuando las técnicas tradicionales de extracción y manejo de datos no pueden descubrir los conocimientos y el significado de los datos subyacentes. Los datos que no están estructurados o son sensibles al tiempo o simplemente muy grandes no pueden ser procesados ​​por motores de bases de datos relacionales. Este tipo de datos requiere un enfoque de procesamiento diferente llamado big data, que utiliza un paralelismo masivo en hardware fácilmente disponible.

Big Data es el océano de información en el que nadamos todos los días: vastos zetabytes de datos que fluyen desde nuestras computadoras, dispositivos móviles y sensores de máquinas. Con las soluciones Big Data, las organizaciones pueden sumergirse en todos los datos y obtener información valiosa que antes era inimaginable. Descubra cómo las tecnologías de Big Data y las herramientas de análisis pueden transformar su negocio hoy.

Pienso en los grandes datos como datos que son demasiado grandes para procesar y administrar utilizando tecnologías convencionales de administración de bases de datos. Big data tiene numerosos atributos además de su gran tamaño, incluido que generalmente no está estructurado y, a menudo, está disperso. Mi colega David Floyer comparte los hallazgos de investigaciones recientes sobre el tema en esta nota:
http://wikibon.org/wiki/v/Enterp

Big data es un término para conjuntos de datos que son tan grandes o complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Los grandes desafíos de datos incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, la consulta, la actualización y la privacidad de la información.

El término “big data” tiende a referirse al uso de análisis predictivos, análisis de comportamiento del usuario u otros métodos avanzados de análisis de datos que extraen valor de los datos y rara vez a un tamaño particular de conjunto de datos. “Hay pocas dudas de que las cantidades de datos ahora disponibles son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos”. El análisis de conjuntos de datos puede encontrar nuevas correlaciones para “detectar tendencias comerciales, prevenir enfermedades, combatir el crimen, etc.” Los científicos, los ejecutivos de negocios, los profesionales de la medicina, la publicidad y los gobiernos enfrentan regularmente dificultades con grandes conjuntos de datos en áreas que incluyen búsqueda en Internet, tecnología financiera, informática urbana e informática empresarial. Los científicos encuentran limitaciones en el trabajo de e-Science, incluyendo meteorología, genómica, conectomía, simulaciones físicas complejas, biología e investigación ambiental. Puede visitar BlueTalon: la mejor seguridad centrada en datos para obtener más detalles al respecto.

Ciertamente incluiría ‘variedad’ en la definición de ‘big data’. En la actual ‘explosión de datos’ que está en marcha, la mayoría de los datos de código abierto; blogs, actividad de redes sociales, video, etc. Está desestructurado y proviene de una amplia ‘variedad’ de fuentes.
Al alinear este enorme tesoro de información junto con sus datos estructurados estándar del cliente, obtendrá la mejor información sobre el comportamiento de su cliente.
Poder ofrecer una solución para el análisis de ‘big data’ también lo ayudará a comprender cómo su marca realmente afecta a sus clientes, esto requiere un análisis de TODOS los puntos de contacto, y no solo de sus canales de recopilación de datos establecidos.

Creo que la definición de “Big Data” va más allá del tamaño del conjunto de datos. No se trata solo de analizar grandes cantidades de datos que pueden ser difíciles de procesar, sino también de hacer conexiones entre elementos y funciones dispares.

Definitivamente no es un problema simple, y además de los recursos enumerados anteriormente, recomendaría este artículo de Business-Software.com: http://www.business-software.com

Hola a todos,

Big data es un término para conjuntos de datos que son tan grandes o complejos que los softwares de aplicaciones de procesamiento de datos tradicionales son inadecuados para manejarlos. Los desafíos incluyen captura, almacenamiento, análisis, conservación de datos, búsqueda, intercambio, transferencia, visualización, consulta, actualización y privacidad de la información. El término “big data” a menudo se refiere simplemente al uso de análisis predictivo, análisis de comportamiento del usuario o ciertos otros métodos avanzados de análisis de datos que extraen valor de los datos, y rara vez a un tamaño particular de conjunto de datos.

Youtube / Parcela técnica

Creo que hay tres V que definen big data:

  1. Volumen: los datos deben ser realmente enormes
  2. Velocidad: qué tan rápido llegan o cambian los datos
  3. Valor: los datos deben tener un valor intrínseco para justificar el procesamiento.

Algunas personas también incluyen Variety como otra V, pero creo que eso es discutible.

Big Data no juega bien con SQL. Es un gran punto que hago en Too Big to Ignore: The Business Case for Big Data . Sí, es posible usar RDBMS tradicionales con cantidades limitadas de datos no estructurados. Sin embargo, estoy descubriendo que la mayoría de las personas progresistas reconocen las limitaciones inherentes de SQL y las tablas largas con muchas filas. Las herramientas como Hadoop y las bases de datos en columnas son más adecuadas para datos no estructurados y semiestructurados.

También soy relativamente nuevo en el tema y, por lo tanto, leo mucho al respecto. Recientemente me encontré con este artículo que es excelente para los principiantes de Big Data en la comprensión del tema en cuestión. Estoy compartiendo lo mismo contigo. Avíseme si necesita más contenido, he curado lo suficiente estudiando el tema durante los últimos 4 meses. https://www.linkedin.com/pulse/b

Respetuosamente, sugiero que no se centre en métricas específicas, sino en el ajuste para la tarea en cuestión. Intente acoplar la tarea de cálculo a la mejor manera de resolverla. Las tecnologías de Big Data a menudo son muy útiles incluso con tamaños de datos modestos que requieren un uso intensivo de la computación, requieren tratar el problema de la variedad o simplemente se prestan a un enfoque de estilo ágil para manejar el problema.

More Interesting

¿Cómo debo representar las características para la clasificación de texto?

¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?

Para un maestro en aprendizaje automático, ¿cuál sería una mejor opción, KTH (MS en aprendizaje automático) o Chalmers (MS en sistemas adaptativos complejos)?

¿Hay alguna métrica de evaluación para chatbots?

¿Deberíamos comenzar con Tensorflow, Keras o Sonnet para desarrollar un sistema de predicción de datos de series temporales? ¿Debemos usar solo lenguajes basados ​​en Python?

¿Cuál es el mejor método para la reducción de dimensionalidad y la selección / extracción de características en datos de espectrometría de masas?

¿Qué funciona mejor: Autoencoder Variacional o Redes Adversarias Generativas?

¿Cuáles son algunos métodos de aprendizaje automático supervisados ​​y no supervisados ​​para trabajar con conjuntos de datos que tienen características muy grandes y un bajo número de muestras?

¿Cuáles son algunos chatbots de IA de código abierto que usan aprendizaje automático?

¿En qué condiciones funcionaría un algoritmo lento más rápido que un algoritmo rápido?

¿Cuáles son las mejores mejores bibliotecas para la clasificación? ¿Cómo se comparan entre sí?

Visión por computadora: ¿Cuáles son algunos problemas de investigación abierta en la recuperación de imágenes basada en contenido?

¿Cuáles son algunas ideas interesantes para un proyecto de investigación en procesamiento de lenguaje natural y / o traducción automática?

Cómo extender una red neuronal profunda que se capacitó en la inclusión de palabras en inglés como entrada en una tarea de clasificación a multilingüe

¿Cómo se usa la informática en su trabajo / campo?