Usuarios de Data Warehousing, Data Lakes, BI y Analytics:
¡Durante mucho tiempo, el grito de rally ha sido BI y análisis para todos! Sin embargo, un lago de datos es mucho más ágil, lo que lo hace maduro para los sistemas de BI modernos. Los datos estructurados se ordenan y procesan fácilmente dentro del lago de datos, lo que da como resultado una salida de datos analizados que los usuarios pueden examinar rápidamente para obtener información. Los lagos de datos también fomentan el descubrimiento de datos de autoservicio. El ecosistema de BI, compuesto por un almacén de datos empresariales, un lago de datos y, potencialmente, una plataforma de descubrimiento para facilitar el análisis en toda la arquitectura, determinará qué datos y qué análisis se utilizan, y dónde se ejecutan, en resumen, los datos el lago tiene un potencial casi ilimitado, pero requiere transformaciones antes de lograr ideas; un almacén de datos requiere una inversión importante por adelantado, pero a cambio ofrece la capacidad de analizar todo fácilmente y las habilidades necesarias para consultarlo. Un lago de datos es una alternativa de bajo costo para el almacenamiento de datos para empresas que desean utilizar datos externos y pueden extraer directamente de cientos, si no miles, de fuentes de datos externas.
Almacenamiento y Hadoop
- ¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?
- ¿Cuáles son los temas más importantes para un futuro estadístico?
- ¿Realmente hace una diferencia entre los programas de EM de uno y dos años en los Estados Unidos, con respecto al campo de la ciencia de datos en términos de conseguir un trabajo también?
- ¿Cuál debería ser el contenido del curso 'Introducción al aprendizaje automático' para estudiantes de 6to semestre de CS sin conocimiento previo de ciencias de datos?
- Cómo usar datos de encuestas para modelar dinámicas de sistemas
Las nuevas tecnologías de procesamiento como Hadoop de código abierto permiten gestionar cantidades de datos mucho mayores. Una de las características principales de las tecnologías de big data como Hadoop es que el costo de almacenar datos es relativamente bajo en comparación con el almacén de datos. Hay dos razones clave para esto: Primero, Hadoop es un software de código abierto, por lo que las licencias y el soporte de la comunidad son gratuitos. Y segundo, Hadoop está diseñado para instalarse en hardware de bajo costo. Hadoop utiliza un paradigma computacional llamado MapReduce (por Google) para dividir una aplicación en muchos fragmentos pequeños, cada uno de los cuales puede ejecutarse en cualquier nodo de la computadora en un clúster. Por ejemplo, Visa pudo reducir el tiempo de procesamiento de datos de dos años (73 mil millones de transacciones) de 1 mes a 13 minutos usando Hadoop.
La tecnología y las habilidades se vuelven obsoletas o redundantes muy rápidamente. Las tecnologías digitales han evolucionado a partir de las tecnologías web, pero en la actualidad han tomado la forma de aplicaciones empresariales. El rol es necesario para la integración, ERP, SCM, CRM, comercio electrónico, nube, ETL, LOB, IaaS, redes sociales, dispositivos móviles e Internet de las cosas (IoT), por nombrar algunos. Lo que está trayendo interrupción al espacio es la automatización. El uso de herramientas de Oracle, IBM, Teradata y Microsoft, la configuración, el mantenimiento y la evolución de los almacenes de datos siempre ha requerido una gran cantidad de recursos e infraestructura costosos. Nadie realmente quiere crear uno nuevo. Se puede usar un lago de datos para sandboxing, lo que permite a los usuarios experimentar con diferentes modelos de datos y transformaciones, antes de configurar un nuevo esquema en un almacén de datos. También puede servir como un área de preparación, desde la cual suministrar datos a un almacén de datos para luego producir datos limpios con valor conocido. Además, el lago de datos puede contener cualquier tipo de datos: flujo de clics, generado por máquina, redes sociales y datos externos, e incluso audio, video y texto. Los almacenes de datos tradicionales se limitan a datos estructurados.
Hoy en día existe una necesidad urgente del mundo empresarial de un acceso rápido a nuevos datos. Estamos hablando de datos que provienen de fuera de la organización y datos no estructurados que constituyen algo así como el 75% de la información en una empresa. Esto se combina esencialmente con la disminución de los costos del almacenamiento de datos en los últimos años y la aparición de conjuntos de herramientas Big Data y NoSQL, en los que las empresas comenzaron a recurrir a los lagos de datos como una alternativa a los desafíos de crear otro almacén de datos.
Debe recordarse que un lago de datos no es un almacén de datos. Ambos están optimizados para diversos propósitos, y el objetivo es utilizar cada uno para lo que fueron diseñados para hacer. Al utilizar cada posibilidad adecuadamente, las empresas y organizaciones pueden obtener lo mejor de ambas soluciones.