Las 10 mejores tecnologías de Big Data
A medida que el mercado de análisis de big data se expande rápidamente para incluir a los clientes principales, ¿qué tecnologías tienen más demanda y prometen el mayor potencial de crecimiento? Las respuestas se pueden encontrar en TechRadar: Big Data, Q1 2016, un nuevo informe de Forrester Research que evalúa la madurez y la trayectoria de 22 tecnologías en todo el ciclo de vida de los datos. Todos los ganadores contribuyen a obtener información en tiempo real, predictiva e integrada, lo que los clientes de big data quieren ahora.
Aquí está mi opinión sobre las 10 mejores tecnologías de big data basadas en el análisis de Forrester:
- ¿Cuáles son algunos escenarios de "big data"?
- DeZyre o Udacity Nanodegree: ¿Cuál recomendarías para un aspirante a científico de datos?
- ¿Puedo obtener un trabajo como analista de datos si aprendo análisis de datos de Internet?
- ¿Qué se necesita para que un estudiante de matemáticas e informática se convierta en un científico de datos?
- ¿Qué habilidades y práctica necesito para ingresar al campo de la ciencia de datos? Además, ¿cuáles son las diferentes oportunidades y opciones para lo mismo?
Análisis predictivo: soluciones de software y / o hardware que permiten a las empresas descubrir, evaluar, optimizar e implementar modelos predictivos mediante el análisis de grandes fuentes de datos para mejorar el rendimiento del negocio o mitigar el riesgo.
Bases de datos NoSQL: bases de datos de valores clave, documentos y gráficos.
Búsqueda y descubrimiento de conocimiento: herramientas y tecnologías para respaldar la extracción de información de autoservicio y nuevos conocimientos de grandes repositorios de datos estructurados y no estructurados que residen en múltiples fuentes, como sistemas de archivos, bases de datos, flujos, API y otras plataformas y aplicaciones.
Análisis de transmisión: software que puede filtrar, agregar, enriquecer y analizar un alto rendimiento de datos de múltiples fuentes de datos en vivo dispares y en cualquier formato de datos.
Estructura de datos en memoria: proporciona acceso de baja latencia y procesamiento de grandes cantidades de datos mediante la distribución de datos a través de la memoria de acceso aleatorio dinámico (DRAM), Flash o SSD de un sistema informático distribuido.
Almacenes de archivos distribuidos: una red informática donde los datos se almacenan en más de un nodo, a menudo de forma replicada, para redundancia y rendimiento.
Virtualización de datos: una tecnología que entrega información de varias fuentes de datos, incluidas fuentes de datos grandes como Hadoop y almacenes de datos distribuidos en tiempo real y casi en tiempo real.
Integración de datos: herramientas para la orquestación de datos en soluciones como Amazon Elastic MapReduce (EMR), Apache Hive, Apache Pig, Apache Spark, MapReduce, Couchbase, Hadoop y MongoDB.
Preparación de datos: software que alivia la carga del abastecimiento, la configuración, la limpieza y el intercambio de conjuntos de datos diversos y desordenados para acelerar la utilidad de los datos para el análisis.
Calidad de los datos: productos que realizan la limpieza y el enriquecimiento de datos en grandes conjuntos de datos de alta velocidad, utilizando operaciones paralelas en almacenes de datos distribuidos y bases de datos.
Fuente: Forbes