El término ‘ Big Data ‘ es relevante, pero el proceso continúa siendo antiguo. Todavía es el acto de recopilar y administrar datos históricos, tradicionales y digitales de fuentes dentro o fuera del negocio para su búsqueda y análisis duraderos. Sus características elementales son:
· Volumen : la cantidad de datos generados y almacenados. El volumen de datos juega un papel importante para determinar si realmente se puede considerar como Big Data o no.
· Variedad : el tipo y la naturaleza de los datos ayudan a analizarlos de manera efectiva.
- ¿En qué medida los roles de Data Science requieren familiaridad con Machine Learning?
- ¿Un "científico de datos" en un negocio basado en datos realiza esencialmente las mismas funciones que un Wall Street Quant?
- ¿Cómo es trabajar en proyectos de aprendizaje automático en la industria del software?
- ¿Qué área dentro de la ciencia de datos experimentará el mayor crecimiento laboral para los profesionales de análisis? (cuidado de la salud, riesgo, financiero, etc.)
- ¿Qué queremos decir cuando usamos la palabra ruido en ciencia de datos y estadística?
· Velocidad : la velocidad a la que se reciben / generan y procesan los datos.
· Variabilidad : los datos incoherentes pueden obstruir el procesamiento y la gestión de datos como resultado.
· Veracidad : la calidad de los datos agregados puede afectar directamente el poder de un análisis preciso.
La importancia de Big Data no es su tamaño sino su utilización. Hay varias cosas que puede hacer con una cantidad de datos tan enorme como:
1. Realización de RCA (análisis de causa raíz) para fallas, problemas y defectos en tiempo casi real
2. Cálculo y recálculo de riesgo y amenaza.
3. Detección de fraude.
Al analizar dichos datos, libera el poder de encontrar soluciones para la reducción de costos, reducción de tiempo, desarrollo de productos nuevos y optimizados y una mejor toma de decisiones.
A pesar de que un mejor análisis tendrá un impacto positivo en su negocio, Big Data puede crear sobrecarga y carga. Comprender qué datos son importantes y relevantes es igualmente esencial. Para procesar tal cantidad de datos y revelar información importante, las herramientas avanzadas son vitales.
Servicios de Apache Mahout:
Apache Mahout ofrece algoritmos enfocados principalmente en las áreas de filtrado colaborativo, agrupamiento y clasificación de big data, además de bibliotecas java para operaciones matemáticas y colección java primitiva. Está basado en hadoop y es escalable, simple, rápido y extensible.
Servicios de Apache Pig:
Apache Pig es una plataforma de alto nivel que utiliza lenguaje de script de cerdo junto con hadoop. Los programas desarrollados con esta plataforma tienen una estructura abierta a una paralelización extensa que les permite manejar y analizar conjuntos de datos muy grandes. Los scripts de Pig se traducen en una serie de trabajos MapReduce que se ejecutan en el clúster Apache Hadoop, lo que permite al sistema optimizar su ejecución automáticamente.
Servicios de Apache Solr:
Apache Solr es la plataforma de código abierto para búsquedas de datos almacenados en el sistema de archivos distribuido de Hadoop (HDFS). Su característica destacada incluye búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupamiento dinámico, facilidad de integración de bases de datos, indexación casi en tiempo real, flexibilidad, adaptabilidad y manejo de documentos enriquecido.
Servicios de Apache Hive:
Desde el principio, Apache Hive ha sido considerado como el estándar de facto para consultas SQL interactivas sobre grandes conjuntos de datos en Hadoop. A través de una estructura similar a SQl, proporciona los medios para consultar, resumir y analizar grandes datos y convertirlos en una visión comercial práctica. A medida que aumenta el volumen y la variedad de datos, se pueden agregar más máquinas de servicio sin tener que afectar la eficiencia o el rendimiento.
Servicios de Apache Spark:
Apache Spark es un marco de procesamiento de big data de código abierto creado para la velocidad y facilidad de uso con diagnósticos refinados. Permite el procesamiento de grandes datos con una variedad de conjuntos de datos de naturaleza diversa. También proporciona operaciones de mapa y reducción junto con otras funciones como soporte para consultas SQL, transmisión de datos, aprendizaje automático y procesamiento de datos gráficos.
MongoDB:
MongoDB es una base de datos No-SQL multiplataforma orientada a documentos de código abierto popular que ofrece alto rendimiento, alta disponibilidad y fácil escalabilidad. Almacena todos los datos en forma de documento compuesto por un par clave-valor similar a los objetos JSON y está fácilmente disponible para consultas ad-hoc, indexación, replicación y agregación MapReduced.