¿Cómo se procesan y visualizan los grandes datos? ¿Qué herramientas se usan?

Depende de la infraestructura que tenga y del caso de uso. Dividamos Hadoop en: MapReduce (marco de procesamiento) y HDFS (almacenamiento de datos). Spark (marco de procesamiento) generalmente está integrado con HDFS (marco de almacenamiento). Además, Spark requiere un administrador de clúster para que pueda usarse en Hadoop YARN o Apache Mesos.

¿Tiempo real?

Spark puede ser hasta 10 veces más rápido que MapReduce para el procesamiento por lotes y hasta 100 veces más rápido para el análisis en memoria. MapReduce opera en pasos, Spark opera en todo el conjunto de datos de una sola vez.

Pero eso significa que necesita una cantidad de memoria comparativamente mayor para poder usar Spark.

  • La forma en que se maneja la tolerancia a fallas también es diferente.

En Hadoop, los datos se escriben en el disco después de cada operación, lo que lo hace resistente a fallas o fallas del sistema. Spark tiene una resistencia incorporada similar. En Spark, los objetos de datos se almacenan en conjuntos de datos distribuidos elásticos distribuidos en el clúster de datos.

En los proyectos de Big Data, el rol del científico de datos los complementa debido a la mayor amplitud y profundidad de los datos que se examinan, en comparación con los roles tradicionales … Puede visitar este enlace: Big Data, ciencia de datos – Clases de capacitación de cursos combinados en línea | Big Data, Data Science – Cursos de cursos combinados en línea Un científico de datos representa una evolución desde el rol de analista de datos o negocios. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadísticas, análisis y matemáticas.

. Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es curioso, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

Por el momento, el papel de un científico de datos lo desempeña una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de esa clase. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que puedan estar más allá del ámbito de los modelos actuales y los problemas comerciales. El analista de negocios trabajaría en los datos que ha recopilado el científico de datos. James Kobielus, un analista senior de Forrester, en su negocio, llega a comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para trabajar con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con el surgimiento de una carrera de pleno derecho, esto pronto cambiará.

Las discusiones sobre quién está calificado exactamente para ser un científico de datos no difieren demasiado del debate que se sostuvo anteriormente sobre si, sin embargo, al principio, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el CTO del grupo en Shoppers Stop dice: “Hay una escasez de profesionales a los que se les puede llamar científicos de datos. Por el momento, quien tiene pasión por trabajar con datos está llenando el vacío ”.

Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que de otro modo permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía, y definitivamente necesita una docena o más de experiencia trabajando con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

un proveedor de servicios de análisis y ciencia de decisiones dice que “los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

Con la llegada de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un entorno de toma de decisiones agradable. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica predectiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

La curva de evolución se está moviendo del soporte de decisiones a ser cada vez más operacional, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. BI entró en escena hace quince años y TI poseía estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI.

Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando “.

En respuesta a este problema, Analytics as a Service se presenta como una alternativa factible. La analítica como servicio aún es incipiente y evoluciona; A medida que crece la complejidad y emergen modelos de servicio maduros que están vinculados con los resultados y el éxito, la tasa de adopción aumentará.

Apache spark es el bebé actual. La limpieza de datos y ETL siguen siendo una tarea difícil y no hay una ‘buena’ forma de hacerlo.

Pero hay productos disponibles como trifacta, tamr, etc. Sin embargo, todavía son bastante beta.

En cuanto a la visualización, los datos generalmente procesados ​​y agregados son lo suficientemente pequeños como para ser visualizados en cualquier paquete std viz. La mayoría de los grandes proveedores de datos como AWS, azure, pivot, etc. también proporcionan la suite viz.

Pero puede usarlo como tableau, qliksense o incluso crear su propia visualización en d3 o webgl.

7 herramientas principales para domesticar big data.
Supongo que esto te ayudaría un poco.

Oh, esto se ha hecho bastante fácil por AWS. Debe consultar sus nuevas herramientas de visualización que cuestan siete dólares por persona por mes para visualizar cualquier fuente de datos.