¿Cuáles son los problemas con big data?

Personalmente, me gustaría llamar a Big Data una oportunidad, pero como nada es gratis, entonces para aprovechar esa oportunidad, tiene algunos problemas asociados con Big Data. Entonces 5 V te explica los problemas con Big Data:

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido. El tamaño de los datos generados por humanos, máquinas y sus interacciones en las redes sociales es enorme. Los investigadores han pronosticado que se generarán 40 Zettabytes (40,000 Exabytes) para 2020, lo que representa un aumento de 300 veces desde 2005.

VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo. A partir de ahora, hay 1.03 mil millones de usuarios activos diarios (Facebook) en dispositivos móviles, lo que representa un aumento del 22% año tras año. Esto muestra qué tan rápido crece el número de usuarios en las redes sociales y qué tan rápido se generan los datos a diario. Si puede manejar la velocidad, podrá generar ideas y tomar decisiones basadas en datos en tiempo real.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado. Por lo tanto, hay una variedad de datos que se generan todos los días. Anteriormente, solíamos obtener los datos de Excel y las bases de datos, ahora los datos vienen en forma de imágenes, audios, videos, datos de sensores, etc., como se muestra en la imagen a continuación. Por lo tanto, esta variedad de datos no estructurados crea problemas para capturar, almacenar, extraer y analizar los datos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos. En la imagen a continuación, puede ver que faltan pocos valores en la tabla. Además, algunos valores son difíciles de aceptar, por ejemplo – 15000 valor mínimo en la tercera fila, no es posible. Esta inconsistencia e incompletitud es la veracidad.

Los datos disponibles a veces pueden ser confusos y tal vez difíciles de confiar. Con muchas formas de big data, la calidad y la precisión son difíciles de controlar, como las publicaciones de Twitter con hashtags, abreviaturas, errores tipográficos y discursos coloquiales. El volumen es a menudo la razón de la falta de calidad y precisión en los datos.

Debido a la incertidumbre de los datos, 1 de cada 3 líderes empresariales no confía en la información que utilizan para tomar decisiones.
Se encontró en una encuesta que el 27% de los encuestados no estaban seguros de la cantidad de datos que eran inexactos.
La mala calidad de los datos le cuesta a la economía de los Estados Unidos alrededor de $ 3.1 trillones al año.

VALOR: Después de discutir Volumen, Velocidad, Variedad y Veracidad, hay otra V que debe tenerse en cuenta al mirar Big Data, es decir, Valor. Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Al convertirlo en valor, quiero decir, ¿está aumentando los beneficios de las organizaciones que analizan big data? ¿La organización está trabajando en Big Data logrando un alto ROI (retorno de la inversión)? A menos que aumente sus ganancias al trabajar en Big Data, es inútil.

Por lo tanto, es difícil procesar Big Data con el sistema tradicional debido al siguiente problema:

En el enfoque tradicional, el problema principal era manejar la heterogeneidad de los datos, es decir, estructurados, semiestructurados y no estructurados. El RDBMS se centra principalmente en datos estructurados como transacciones bancarias, datos operativos, etc. y Hadoop se especializa en datos semiestructurados y no estructurados como texto, videos, audios, publicaciones de Facebook, registros, etc. La tecnología RDBMS es un sistema probado, altamente consistente y maduro. apoyado por muchas compañías. Mientras que, por otro lado, la tecnología del sistema Hadoop se desarrolla y tiene demanda debido a Big Data, que consiste principalmente en datos no estructurados en diferentes formatos.

Entonces, el primer problema es almacenar la cantidad colosal de datos. No es posible almacenar estos enormes datos en un sistema tradicional. La razón es obvia, el almacenamiento estará limitado a un sistema y los datos están aumentando a un ritmo tremendo.

El segundo problema es almacenar datos heterogéneos. Ahora sabemos que el almacenamiento es un problema, pero déjame decirte que es solo una parte del problema. Como hemos comentado, los datos no solo son enormes, sino que también están presentes en varios formatos, como: No estructurado, Semi-estructurado y Estructurado. Por lo tanto, debe asegurarse de tener un sistema para almacenar estas variedades de datos, generados a partir de varias fuentes.

Ahora, centrémonos en el tercer problema, que es el acceso y la velocidad de procesamiento . La capacidad del disco duro aumenta, pero la velocidad de transferencia del disco o la velocidad de acceso no aumenta a una velocidad similar. Permítame explicarle esto con un ejemplo: si solo tiene un canal de E / S de 100 Mbps y está procesando, digamos, 1 TB de datos, tomará alrededor de 2.91 horas. Ahora, si tiene cuatro máquinas con cuatro canales de E / S para la misma cantidad de datos, tardará aproximadamente 43 minutos. Por lo tanto, para mí, la velocidad de acceso y procesamiento es el mayor problema que el almacenamiento de Big Data.

Para una comprensión más clara, puede consultar este blog Qué es Hadoop o este video tutorial de Big Data:

Por lo tanto, le recomendaría que lea estos videos de Qué es Hadoop y Tutoriales de Hadoop para comprender cómo se resolvió el problema asociado con Big Data:

Debería revisar esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop para aprender Big Data y Hadoop en detalle. Su aprendizaje debe estar alineado con las certificaciones de Big Data .

Apache HadoopBig DataBig Data AnalysisData AnalysisData Science

Buscando una visión general de las ideas de big data que podrían derivarse al analizar la cadena de bloques de Bitcoin. ¿Qué es posible los niveles masivos dados de adopción comercial? ¿La percepción de la cadena de bloques como un indicador económico?

Quiero ser un científico de datos. ¿Cómo entreno mi sensibilidad de datos?

¿Cuáles son los errores más comunes que cometen los nuevos científicos de datos?

¿Cuál es el mejor IDE de Python para análisis de datos / ciencia?

¿Cómo se implementa la funcionalidad de verificación de spam mediante el aprendizaje automático?

¿Cuáles son algunos pasatiempos que a los científicos de datos les gustan?

Los siguientes cuatro problemas de Big Data pueden derivarse de la explicación de la ciencia de datos dada por IBM:

Volumen: el volumen es uno de los principales desafíos de Big Data. Por ejemplo, 6 mil millones de personas de 7 mil millones poseen teléfono móvil. Cada móvil genera grandes datos como mensajes, CDR (registros de detalles de llamadas), etc. Imagine la cantidad de datos que se generan solo en la industria de las telecomunicaciones. Lo mismo ocurre con otras industrias como la banca, la fabricación, el comercio electrónico, etc.
Velocidad: la velocidad a la que se debe acceder a estos datos en tiempo real. Por ejemplo, el automóvil autónomo lanzado por Google tiene que funcionar con sensores y toma toneladas de datos y necesita acceder en tiempo real para tomar decisiones en tiempo real.
Variedad: Los datos generados pueden ser estructurados o no estructurados. Por ejemplo, se comparten 30 mil millones de piezas de contenido cada mes en Facebook, que pueden ser texto, imágenes, videos, etc.
Veracidad: la incertidumbre de los datos es uno de los desafíos. La mala calidad de los datos cuesta casi $ 3.1 trillones al año para la economía de los Estados Unidos debido a la mala calidad de los datos.

Entonces, estos son los problemas a los que nos enfrentamos cuando trabajamos con Big Data. Entonces, estos problemas en Big data son las oportunidades que un científico de datos puede explorar.

Fuente: plataforma de big data de IBM

Saludos

Manish Pillai

Girish Shukla

El mayor problema con los grandes datos reales (datos masivos, menos estructurados, heterogéneos, difíciles de manejar, incluidos y más allá del rango de petabytes) es que son incomprensibles para los humanos a escala. No podemos conseguir máquinas que nos ayuden lo suficiente. Y, sin embargo, los grandes datos siguen creciendo. Entonces nos estamos ahogando en nuestros propios datos.

El aumento de la computación ubicua y cada vez más puntos finales que se comunican en sus propios circuitos de retroalimentación con la nube mantienen el crecimiento de los datos a tasas de dos dígitos. No podemos seguir el ritmo.

De la era de Zettabyte: tendencias y análisis

Los puntos finales, todos esos dispositivos portátiles y dispositivos portátiles encantadores, por ejemplo, o sensores, sin servidores en la nube para comunicarse y aprovechar la potencia de procesamiento son bastante inútiles, tanto depende del back-end o “la nube”. Estas máquinas en la nube sin las entradas humanas más inteligentes son inarticuladas, sin comprender a los brutos, incluso cuando están en grupos de miles y son fáciles de alcanzar. Y pueden amplificar el ruido o los errores en los datos tan fácilmente como amplificar la señal o proporcionar información, lo que no es útil. Entonces, ¿qué pueden ayudarnos a hacer?

Hace más de una década, Google desarrolló una forma en que Yahoo clonó para distribuir datos a través de grandes grupos de productos básicos y procesar trabajos por lotes simples para comenzar a extraer grandes conjuntos de datos sobre una base de lote ad-hoc de manera rentable. Ese método ha evolucionado como Hadoop. Luego, en el frente de la base de datos más convencional, hay formas de escalar análisis usando tecnologías de bases de datos relacionales modificadas y no relacionales. Ver ¿Cómo se analizan los grandes datos?

Solo una pequeña fracción de la población es lo suficientemente experta con estos métodos para dar sentido a los grandes datos. (Ver Dar sentido a los grandes datos)

Hay pirámides de comprensión que los humanos tienen que construir con los datos que están generando. Solo el ápice de cada pirámide es accesible para la población en general. Se requiere mucho trabajo, la mayoría en la base de cada pirámide.

Así que imagina el dilema aquí como una pila de desafíos. Entre estos desafíos están los siguientes:

Reconocimiento: identificación de qué es qué en los datos. Ver http://www-labs.iro.umontreal.ca …
Descubrimiento : formas eficientes de encontrar los datos específicos que pueden ayudarlo. Ver http://www.pwc.com/us/en/technol …
Modelado y simulación: formas inteligentes de modelar los problemas que los grandes datos pueden resolver para que las entradas humanas puedan dar como resultado salidas útiles. Ver http://www.pwc.com/us/en/technol …
Semántica : formas efectivas y eficientes de contextualizar los datos para que sean relevantes para individuos y grupos específicos. Ver http://www.pwc.com/us/en/technol …
Análisis : formas efectivas de analizar y visualizar los resultados de los datos. Consulte Reformar la fuerza laboral con las nuevas analíticas.
Almacenamiento, transmisión y procesamiento : formas eficientes de tomar entradas humanas y actuar en lotes o transmisiones de grandes datos para poder extraer información de ellos. Reasignación del paisaje de la base de datos

Estas disciplinas solo están rascando la superficie del problema. Hay sub-desafíos debajo de los desafíos. Y cada desafío requiere su propio nivel especial de comprensión. Somos ineficientes en la asignación de recursos para resolver desafíos específicos de big data, debido a la creciente totalidad del problema mayor. Cada inversionista o individuo dispuesto y talentoso que trabaja el problema generalmente solo ve algunas piezas del problema.

Y luego, sin mencionar el tema de entender lo que los humanos quieren y necesitan para comenzar, o lo que el mundo natural necesita para sostener la vida a gran escala … Después de todo, esos son los problemas más fundamentales con los que todos estamos tratando de lidiar.

Manish Pillai

Big Data es esencialmente tres cosas,

Gran cantidad de datos
Llegando a alta velocidad (tiempo real a casi tiempo real)
Con mucha variedad (videos, texto, audio, imágenes, etc.)

Cuando tiene una pequeña cantidad de datos, es fácil de administrar y manejar. También es fácil de ver y obtener los conocimientos necesarios. Pero, en el caso de Big Data, ya que la cantidad de datos es mucha, genera varios problemas.

1. Almacenamiento

Cuando tiene grandes cantidades de datos, el primer y principal problema sería el almacenamiento. ¿Dónde lo guardarías? ¿Compra hardware nuevo y establece centros de datos o lo almacena todo en una nube y lo convierte en un problema de otra persona? ¿Qué pasa con la latencia si la almacena en la nube? ¿Qué tan rápido lo quieres y con qué frecuencia lo quieres? Y, ¿qué pasa con los datos antiguos? ¿Lo descartarás o lo guardarás?
Todos estos problemas deben abordarse antes de hacer algo significativo.

2. Seguridad

Algunos de los mayores robos de datos han ocurrido en los últimos años y, por lo tanto, la seguridad es uno de los principales problemas a abordar. Cuando almacena los datos, debe asegurarse de cumplir con todas las leyes de protección de datos en todas partes. El almacenamiento en la nube puede ser un escenario económico para el almacenamiento, pero no tanto para la seguridad. Aunque todas las empresas de almacenamiento en la nube emplean medidas de seguridad y protección de primer nivel para proteger sus datos, uno nunca puede estar tan seguro de eso. Y, por lo tanto, se deben tomar medidas para prevenir los peores escenarios.

3. Necesidad de velocidad

En el mundo de hoy, la gente espera que todo se haga instantáneamente. Las visualizaciones y las predicciones son realmente importantes para proporcionar información adecuada a partir de los datos, pero el desafío aquí es revisar los enormes volúmenes de datos y generar gráficos hermosos además de eso. Para esto, siempre podemos seguir actualizando nuestros sistemas y / o mantener todos los datos en la memoria caché para que el acceso sea rápido, pero aún así el análisis en tiempo real sigue siendo algo muy imposible.

4. falsos positivos

La analítica esencialmente está mirando un subconjunto de datos para encontrar un patrón y probar esas hipótesis en otro conjunto de datos para ver si puede encontrar el mismo patrón / similar. Entonces, esencialmente, su enfoque de seguimiento y error hasta que encuentre el patrón que parece estar en todas partes. Con este enfoque en cantidades tan grandes de datos, es posible obtener falsos positivos. Por lo tanto, la buena práctica es probar una hipótesis de manera rigurosa y exhaustiva para evitar sacar conclusiones erróneas.

Además de estos, también tenemos que abordar los problemas de calidad de datos, complejidad de datos.
Dado que, según diversas estimaciones, la cantidad de datos aumentará al menos 4 veces en los próximos 5 años, ya es hora de que todos comiencen a pensar en estos problemas o de lo contrario todos se verán inundados por el inminente Tsunami de datos infinitos !

Manish Pillai

¿Sabes que el mundo se está digitalizando y conectando cada vez más con dispositivos electrónicos en todos los aspectos? Todo esto genera “2.5 bytes quintilianos” de datos todos los días. Es capaz de recopilar estos enormes datos de todas sus actividades durante todo el día.

Permítanos entender de dónde provienen estos datos y luego le diré cuál es el problema de Big Data.

Los datos se generan a partir de sus actividades en las redes sociales y proporcionan su información a diferentes aplicaciones y sitios web . Cada vez que hace clic en la casilla de verificación ‘Acepto’, permite que esas aplicaciones rastreen todas sus actividades en el teléfono móvil y el escritorio, como sus búsquedas en la web, actividades de compras de comercio electrónico, lista de contactos, imágenes, etc.

Los datos también se generan a partir de sus actividades que no sean en ‘su’ móvil o computadora de escritorio cuando visita un hospital, centro comercial, tienda minorista, surtidor de gasolina, bancos e incluso restaurantes y cines. Las cámaras de CCTV y diferentes tipos de sensores también generan datos.

Las entidades no humanas como un poste de electricidad, un avión o un automóvil automático también generan Big Data.

Tomemos un ejemplo de autos.

En los automóviles conectados se recopilan grandes datos de la multitud de sensores y se pueden hacer inferencias sobre el comportamiento del consumidor. Por ejemplo, si hay un vínculo entre la música que la gente escucha y conduce por los restaurantes que frecuentan.

También hay un gran potencial para la conducción autónoma para mantener nuestras carreteras más seguras. Para que estos vehículos se hagan realidad, necesitan Big Data. Los vehículos están integrados con sensores que miden todo, desde la posición, la velocidad, la dirección y el frenado de las señales de tránsito, la proximidad de peatones y los peligros. Con esta información, el vehículo puede tomar decisiones y llevar a cabo respuestas apropiadas sin errores humanos.

Este tipo de conexiones puede afectar la toma de decisiones de seguridad, el diseño de productos, la asignación de recursos publicitarios y los presupuestos, y, por lo tanto, la información recopilada de diferentes fuentes es invaluable comercialmente.

A estas alturas ya debe poder imaginar cuán grande es el Big Data. Ahora veamos los problemas relacionados con el big data.

El problema de Big Data

Big Data son datos masivos, menos estructurados, heterogéneos, difíciles de manejar hasta incluir y más allá del petabyte. Estos datos son incomprensibles a escala humana. Nos estamos ahogando en nuestros propios datos.

Hadoop es la herramienta de Big Data más popular. También hay otros como Spark, Lumify, Apache strom, Apache samoa, etc.

Solo una pequeña fracción de la población es lo suficientemente experta con estos métodos para dar sentido a los grandes datos.

Hay pirámides de comprensión que los humanos tienen que construir con los datos y la información que generan.

Las tareas y desafíos relacionados con Big Data son

Reorganización de datos.
Descubra formas de encontrar los datos específicos que pueden ayudarlo.
Modelado y simulación o formas inteligentes de modelar los problemas que los grandes datos pueden resolver.
Formas efectivas y eficientes de contextualizar los datos para que sean relevantes para individuos y grupos específicos
Formas eficientes de analizar y visualizar los resultados de Big Data.
almacenamiento, transmisión y procesamiento de Big Data para extraer información de él.

Hay muchos desafíos secundarios debajo de los problemas. Pero la tecnología ha encontrado soluciones a estos problemas. El reconocimiento de Big Data como problema hace unos años era una solución en sí misma.

Shashank Salunkhe

Con el avance de la tecnología e Internet, una gran cantidad de datos comenzó a acumularse. Las empresas comenzaron a tener dificultades para almacenar estos datos. Incluso se dieron cuenta de que no están utilizando la cantidad total de datos que están almacenando.

Big Data está creciendo continuamente y existe la necesidad de almacenar y administrar estos datos. Big Data viene con grandes problemas con los que lidiar. Considere una pequeña cantidad de datos, es fácil de almacenar, administrar y analizar. Con los datos cada vez más grandes, se hace difícil almacenarlos. Aquí es donde surgen los problemas y estos problemas pueden afectar a las empresas de varias maneras.

Los mayores problemas que enfrentan las empresas:

El principal problema que enfrentan las empresas es cómo utilizar los datos y obtener valor de ellos.

Según una encuesta, solo el 27% de los usuarios de Big Data describieron sus iniciativas como exitosas.

Esto muestra una gran brecha entre el conocimiento teórico y el conocimiento práctico sobre la implementación de habilidades de Big Data.

Veamos los problemas que enfrentan las empresas al tratar con Big Data:

Complejidad

A medida que aumenta el volumen de datos, se hace difícil obtener un resultado de una gran cantidad de datos. El término descrito como “para encontrar la señal en el ruido” indica que necesita encontrar algún tipo de forma de encontrar el valor de sus datos. Cuanto mayor sea el volumen de datos, más complejo será analizar y extraer algún valor. Debe seguir volviendo a analizarlo nuevamente pensando que queda algo. Esto aumenta la complejidad del análisis de datos y la obtención del valor.

Silos de datos

Data Silos es un repositorio de datos fijos que permanece bajo el control de un solo departamento y permanece aislado del resto. Data Silos almacena los datos en unidades separadas. Estos datos en unidades están aislados unos de otros y no pueden comunicarse. No puede extraer ningún significado de dichos datos, ya que no está integrado en el back-end. La solución para evitar silos de datos es integrar los datos para que podamos extraer información útil de ellos.

Sesgo de datos

Es posible manipular datos y esto crea un sesgo. Considere una encuesta sobre encuestas. Es muy fácil analizar y derivar el resultado de las encuestas si solo se tienen en cuenta dos encuestas. Pero si tiene que realizar una encuesta de 100 encuestas, el resultado tendrá muchas lagunas y es difícil predecir los resultados. De manera similar, si el puntaje de un maestro depende del desempeño de los estudiantes, el maestro puede manipular los datos y obtener ganancias de ellos. Los datos se pueden manipular y, por lo tanto, dan como resultado un sesgo de datos.

Datos inexactos

La cantidad de datos precisos que tienen las empresas es muy inferior. Según una encuesta, el 75% de las empresas creen que los datos, como los datos de contacto, proporcionados por los clientes son inexactos. Esto lleva a que solo se acumulen datos. Recopilar datos inexactos es tan bueno como no tener datos. Los datos inexactos se almacenan principalmente debido a los silos de datos. La única solución para evitar esto es integrar datos.

Falta de trabajadores calificados

La falta de habilidades analíticas está frenando el auge del big data. Según las encuestas, solo el 6% de los profesionales pudieron usar las tecnologías de Big Data de manera eficiente. Esto muestra la falta de profesionales calificados en el mercado de big data. Las empresas están creando muchos empleos, pero existe una gran brecha en la oferta y la demanda de profesionales de Big Data.

Conclusión

Big data viene con grandes problemas. Por lo tanto, se hace necesario tomar medidas para eliminar los problemas asociados con Big Data. No afectará la cantidad de datos que se almacenan, definitivamente afectará el análisis y el valor verdadero no se extraerá de los datos.

Información Adicional

Puede revisar estas preguntas en Big data para obtener más referencias.

¿Qué es Big Data y Hadoop?
¿Qué tan importantes son las certificaciones de Big Data?
¿Qué es Big Data y para qué sirve?

¿Hay algo aparte de esto que le gustaría saber?

Espero que esto te ayude a comprender los problemas con Big Data. Si todavía tiene alguna pregunta, puede enviarme un mensaje, lo ayudaré.

Patrick Hall

Los datos son útiles solo tanto como las interpretaciones y conclusiones que podemos extraer de ellos. Dejando a un lado las preocupaciones sobre la limpieza y la capacidad de administración de los datos, el problema central de los grandes datos es que con suficientes datos, es más probable que un científico de datos encuentre apoyo para conclusiones que realmente no deberían existir. Cuantas más variables haya en un conjunto de datos, mayor será la probabilidad de que uno encuentre alguna correlación aleatoria y sin sentido entre dos de ellas. Amplíe el conjunto de datos y este problema se magnifica.

A pesar de toda la emoción en el aprendizaje automático y el aprendizaje profundo, nada coincide con la capacidad del cerebro humano (todavía) para dibujar una hipótesis comprobable sobre un conjunto de datos dado usando el sentido común sobre qué variables podrían tener una correlación. Dado que la correlación por sí sola no implica causalidad, incluso si un científico de datos encuentra algo interesante en los datos, aún debe verificarse por otros medios.

El hecho de que tenga grandes datos no implica en sí mismo nada útil. Es posible que tenga un camión lleno de arena, bueno, genial. Es mejor si tiene un método automatizado para encontrar piezas de conchas marinas en esa arena, pero mejor aún si su código le permite hacer el procesamiento de imágenes en 3D de conchas marinas enteras para que pueda saber exactamente de qué playa del mundo proviene la arena. Y si puede estimar la tasa de erosión de esa playa a partir de la fragmentación de las conchas marinas para que pueda informar a la ciudad si el gasto de un muro de playa es aconsejable o no, así es como se daría cuenta del poder de los grandes datos.

Realmente parece que las compañías que acuden a grandes cantidades de datos creen que producirá algo grandioso sin tener la experiencia para analizar, probar y derivar inferencias de esos datos, solo están obteniendo una gran cantidad de arena para transportar.

Anoop Vasant Kumar

Hay un problema simple: todos los demás problemas se derivan de esto.

Las personas como Larry Page son matemáticos: pueden ver el poder del algoritmo y conocer su poder para hacer que lo que parece ser muy complejo, realmente simple.

La gente de negocios ve un imperativo diferente. Saben que si algo parece simple, incluso si no lo es, no se puede cobrar mucho por ello. El truco es crear algo que sea simple de hacer, pero que parezca difícil y complejo; luego puede cobrar mucho dinero por honorarios de consultoría, hacer fortunas como gurús que asisten a conferencias, etc. El culto del mago o alquimista es humo y espejos. .

Un cohete es una de las máquinas más simples del mundo. Sin embargo, tenemos el mito de “No es ciencia espacial”. De la misma manera, tenemos un mito de TI, creado en la primera fase cuando nadie sabía lo que podían hacer estas cosas informáticas novedosas o lo que estaba involucrado. La gente se nombró a sí misma como experta y cobró fortuna. Toda una generación de empresas agresivas creció en torno al suministro de hardware terriblemente costoso y la vinculación de empresas a contratos inflexibles a largo plazo basados en el número de CPU, usuarios concurrentes y todo el lenguaje del confuseopolio, una forma de cobrar más.

Cuando el mito del hardware finalmente fue destruido, estas compañías se trasladaron al software. SAP, Oracle e IBM compraron todas las compañías de software disponibles y crearon los mitos de ERP, CRM y gestión de recursos humanos como formas de vender software, sin olvidar lo agresivo, atarlo y bloquear al otro tipo, pagar muchos asientos que no tiene. No use y el 20% de contratos de mantenimiento. Ah, y £ 1k / día por consultor para presionar los botones para que haga cualquier cosa.

Esos mitos también están rotos. Entonces, ¿a dónde van esas compañías? La última frontera de la complejidad de TI (bueno, tal vez no, también están en Internet de las cosas). Han traído sus metodologías con ellos.

BigData – como en “grande, aterrador, no podrías entenderlo”
Y la metodología “dánoslo, puedes confiar en nosotros” (anteriormente llamada Cascada) “tomaremos un breve resumen, lo haremos para proporcionar lo que queremos darte y mantenerte fuera del proceso para que no puedas ver cuán fácil es en realidad o cuánto simplemente reutilizamos desde el último cliente “.

Todavía están vendiendo consultores en un Grand Pop. Aún así, díganos su compañía. Aún te ata a contratos a largo plazo de los que no puedes salir fácilmente. Girando palabras de moda para que ganes puntos de estado laboral al comprar la última jerga. Nuevo campo: las mismas técnicas de ventas agresivas. ¿Y te engañas? ¡Apuesto! De ahí preguntas como esta: estas personas quieren que creas que la ciencia de datos es difícil y está plagada de problemas que solo ellos pueden resolver (así que saca tu chequera).

Eso no es DataScience. Eso es aceite de serpiente. Y está matando los beneficios que Big Data realmente puede ofrecer tanto a empresas como a particulares.

Manish Pillai

Hay dos formas principales de crear valor comercial con Big Data:

Una compañía de productos digitales utiliza Big Data en sus operaciones principales para entregar un producto. Estos serían todos los tweets de Twitter o todas las fotos y datos de la cuenta de Instagram.
Una empresa de productos o servicios no digitales utiliza Big Data para crear ideas que conducen a una ventaja competitiva. Un ejemplo sería una empresa de servicios públicos que almacena información de uso del cliente en intervalos muy finos y la analiza en busca de tendencias.

Almacenar, consultar y mantener big data es extremadamente costoso. Hay tres requisitos de datos para que valga la pena: debe ser voluminoso, de alta velocidad y de mucha variedad.

Las compañías de productos digitales como Facebook, Ebay, Paypal, etc., deben almacenar y recuperar cada registro de grandes cantidades de datos para entregar sus productos. Para ellos, Big Data es una empresa valiosa, necesaria. Además, sus datos cumplen con los tres criterios: hay una tonelada de usuarios o tipos de archivos que deben consultarse, y todos publican cosas todo el tiempo.

Una empresa que no utiliza Big Data para crear productos básicos puede tener dificultades para justificar el costo. ¿Qué valor comercial adicional se crea al almacenar y consultar cada registro en un conjunto de datos versus una simple muestra de esos registros en un conjunto de datos? Además, los datos utilizados por estas compañías no siempre cumplen con los criterios de Big Data: hay muchos datos y pueden llegar rápidamente, pero en el caso de Utilities, ¿hay realmente mucha variedad?

Para obtener información comercial valiosa, solo se necesita analizar una muestra de registros en lugar de cada registro. Esto es especialmente cierto dada la falta de variedad. Las empresas de productos y servicios no digitales a veces olvidan las leyes de las estadísticas a favor del marketing sexy.

Consultar, almacenar y mantener grandes conjuntos de datos es costoso y lleva mucho tiempo. A menos que sea absolutamente necesario y se cumplan esas tres condiciones, Big Data no vale el costo.

William Hayles

La recopilación indiscriminada de datos puede conducir a problemas de seguridad y privacidad : si una empresa almacena cada fragmento de información sobre sus clientes durante años, corre un riesgo considerable de incumplimiento y privacidad si esos datos se ponen a disposición de terceros no autorizados. Aquí hay que considerar un escenario de riesgo: el valor potencial de los datos es mayor que los costos potenciales de recopilarlos, administrarlos y asegurarlos, o, lo que es peor, perderlos por una violación de seguridad.

Existe la tentación de utilizar los datos de manera poco ética : todos conocemos la historia de que Target envió correos electrónicos a mujeres embarazadas según la información que había reunido. Hay un sólido caso de negocios para lo que hicieron, pero desde una perspectiva ética está lleno de complicaciones, y los problemas éticos pueden convertirse rápidamente en problemas de relaciones públicas que afectan el resultado final.

Los datos son inútiles a menos que sepa lo que quiere hacer con ellos : los datos no son intrínsecamente valiosos. Solo se vuelve útil para las empresas después de que se procesa y analiza. Para analizar los datos, es necesario tener al menos una idea de lo que espera encontrar: una hipótesis que se probará.

Un enfoque que las empresas pueden considerar es recopilar datos para responder preguntas específicas que determinaron de antemano. Si los datos se recopilan para un propósito, en lugar de indiscriminadamente, es mucho más fácil controlar el alcance de la recopilación de datos y los usos a los que se puede dar. Al asignar la recopilación de datos a los beneficios comerciales específicos, las empresas pueden garantizar que la recopilación de datos tenga un alcance limitado, relevante y justificable. En esta publicación, profundizo un poco más en el tema. La recopilación indiscriminada de datos puede poner a las empresas en un dilema ético

James Lee

Big data, en términos simples, es un conjunto de conjuntos de datos extremadamente grandes, que no pueden procesarse por medios tradicionales de procedimientos de procesamiento de datos. Big data es la información que es tan vasta que sin el uso de un dispositivo de computadora y un software apropiado, descifrar los datos sería casi imposible.

Al tratar con tales datos, siempre hay un margen de error. Sin embargo, no hay nada que no pueda ser examinado y reparado. Sin embargo, estos son algunos de los problemas más comunes asociados con Big Data.

De los muchos problemas que pueden surgir con Big Data, hemos enumerado algunos aquí para que los conozca. Lo que debe prestarse atención es el hecho de que ninguno de estos problemas es duradero y que, con vigilancia y asistencia experta, pueden resolverse.

1. Infracción de privacidad

2. Menos protecciones legales que aseguren el análisis privado de datos

3. La información personal podría estar en riesgo

4. El anonimato podría ser más difícil de lograr.

5. Las interpretaciones de los datos pueden variar debido a su magnitud

Estos son algunos de los problemas que podrían surgir con Big Data. Pero con cada desafío, tenemos la oportunidad de abordarlo y obtener mejores resultados para los clientes.

Manish Pillai

En estos días, hay una gran discusión sobre los problemas con Big Data. Esto es importante porque Big Data tiene un uso variado. ¡Con un par de años de experiencia en esta industria, me gustaría enumerar algunos problemas con Big Data de una manera muy simple!

(1) ¿Dónde lo guardarías / pondrías?

¡La primera confusión surge cuando ya hay una gran cantidad de datos y otro conjunto de datos importantes se acumula! ¿Dónde lo guardas? ¿En algún hardware o en la nube? ¿Con qué frecuencia accederías? ¿Vas a lidiar con la latencia? Entonces, cada vez, tendrá que hacer tales preguntas porque los datos son diferentes, su valor es diferente.

(2) El gran sesgo

Bueno, es bastante simple entender que cuantas más opciones tenga, más se confundirá. ¡Lo mismo sucede aquí! Por ejemplo, al analizar 100 encuestas, puede haber problemas mucho más matizados dentro de esos datos.

(3) Los falsos positivos

A veces, las personas apresuran las decisiones basadas en un subconjunto de datos (pensar rápido). Una mejor práctica es “pensar despacio” y realmente racionalizar los datos. Con Big Data, pensar rápido (no analizar los datos completamente) conduciría a falsos positivos.

(4) El gran problema de complejidad

En palabras simples, uno tiene que encontrar una señal del ruido o uno tiene que encontrar una aguja de una gran pila. Por lo tanto, siempre habrá un gran problema de complejidad.

(5) estaba buscando otra cosa

Es divertido, pero a veces las herramientas de Big Data lo llevan a atajos que no es lo que el usuario estaba buscando. Los sistemas de Big Data piensan que han encontrado una mejor manera, pero en realidad, ¡podría ser una manera incorrecta!

Estos son solo algunos problemas básicos.

Girish Shukla

El mayor problema con big data es este:

Más basura adentro = más basura afuera.

Otro problema es que los grandes conjuntos de datos hacen que cada relación sea significativa; esto hace que el uso de los valores de p sea aún más problemático de lo que suele ser (¡y eso es bastante problemático!)

Otro problema es la filosofía demasiado común de “La computadora lo dijo, lo creo, eso lo resuelve”.

Y hay más problemas.

Estos problemas no son insolubles: los expertos pueden encontrar cosas con grandes cantidades de datos que podrían no encontrar con cantidades más pequeñas. Pero no todas las personas que analizan big data saben lo que están haciendo. Y las GUI lo hacen mucho peor.

Shailna Patidar

El mayor problema con ‘big data’ es que, en general, la calidad de un conjunto de datos es inversamente proporcional a su tamaño. Las estimaciones basadas en grandes conjuntos de datos suelen sufrir sesgos de selección sistemática y problemas de calidad de los datos.

También es poco probable que las características en el conjunto de datos representen los conceptos que se les asignan en análisis e interpretación.

Estos conjuntos de datos a menudo son observacionales, pero no incluyen suficiente información para dar cuenta de forma correcta de la contabilidad u otros sesgos al hacer estimaciones.

Todos estos problemas hacen que la validez de la ciencia de big data sea cuestionable.

Rishabh Agnihotri

Calidad y procesamiento! Sin calidad, los análisis no ayudarán (basura adentro, basura afuera). El procesamiento y el almacenamiento también se convierten en problemas, aunque Hadoop tiende a funcionar bien con las cantidades de la mayoría de las compañías (las compañías de Internet como Google o Amazon pueden tener problemas).

Manish Pillai

Una de las cosas, aparte de todo lo que se menciona, es que casi nunca purgamos o descartamos datos, dado el hecho de que almacenar datos se está volviendo cada vez más barato. Si no planeamos desordenar o construir un sistema que ayude a la limpieza antes del procesamiento, pasaremos un tiempo masivo limpiando los datos como parte del cálculo.

La idea clave aquí es que necesitamos sistemas para limpiar los datos de purga regularmente dado el hecho de que los datos ahora son generados por máquinas y la cantidad de máquinas está creciendo a una tasa masiva a gran escala.

Clayton Rothschild

El valor de la información que contiene un conjunto de datos no está necesariamente correlacionado con su tamaño. PERO el costo de almacenar y analizar un conjunto de datos está definitivamente correlacionado con su tamaño.

Manish Pillai

Básicamente, el análisis es siempre un subconjunto de los grandes datos utilizando una herramienta que hace suposiciones o tiene reglas que a menudo son defectuosas debido al sesgo y los prejuicios del científico de datos que realiza el análisis.

Entonces, los datos en la mayoría de los casos son solo otra opinión de la OMI

Pero para cada uno de ellos, mis datos son defectuosos, trabajo en
Three Ventures – Una agencia de marketing digital

Shashank Salunkhe

Big Data es una gran herramienta de datos, por lo que los problemas de identificación solamente y las economías desarrolladas utilizan cada vez más tecnologías intensivas en datos. Hay 4.600 millones de suscripciones de teléfonos móviles en todo el mundo, y entre 1.000 y 2.000 millones de personas acceden a Internet. [3] Entre 1990 y 2005, más de mil millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se alfabetizaron, lo que a su vez condujo al crecimiento de la información. Sitios como http: //bigdatahadooppro.com/

Anoop Vasant Kumar

Me sorprende que nadie haya mencionado los problemas morales / de privacidad que surgen cuando tiene las oportunidades que le ofrecen los bigdata.

Solo porque ahora puede predecir estas cosas, ¿debería? (¡Dejando de lado las cuestiones legales también!)

También hay muchos problemas de seguridad. En una startup es bastante fácil, pero en una empresa se vuelve mucho más difícil.

Shashank Salunkhe

More Interesting

Cómo evaluar el rendimiento de un sistema que agrupa vectores de palabras

¿Qué debo hacer a continuación para conseguir un trabajo en Data Science y Machine Learning en India?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

¿Cuántos científicos de datos (por cualquier nombre) hay hoy?

¿Necesito aprender el desarrollo del backend si quiero convertirme en un científico de datos?

¿Cuál es la forma más rápida de realizar un EDA en un conjunto de datos con más de 100 variables?