¿Qué necesitaría para configurar una arquitectura de Big Data?

En mi opinión, hay 3 puntos fundamentales que una aplicación de Big Data debería tener:

Alta disponibilidad
Alto rendimiento
Analítica

Los primeros 2 puntos se logran mediante diversos grados de replicación, equilibrio de carga y fragmentación de la base de datos. El equilibrio de carga es un proceso de replicar su código en muchos servidores y hacer que cada servidor comunique su estado y disponibilidad. Por lo tanto, cualquier solicitud se enviará solo a servidores que estén disponibles y que otras solicitudes no hayan sobrecargado. Una aplicación de big data a gran escala como Facebook tendría miles de servidores dedicados al equilibrio de carga.

La división de bases de datos es el proceso de dividir una base de datos en varias bases de datos ubicadas en diferentes servidores. Cada base de datos tendrá la misma estructura de datos, pero almacenará diferentes filas de datos. Cada una de esas bases de datos se denominará “nodo”. Por ejemplo, si una aplicación almacena detalles de millones de usuarios y metadatos asociados, los usuarios pueden agruparse en diferentes bases de datos basadas, por ejemplo, en la ubicación geográfica, una letra del alfabeto o un año de registro. Como los procesos de lectura desde disco, escritura en disco y escaneo de grandes tablas de bases de datos son computacionalmente costosos, esta configuración actúa como un equilibrio de carga para estos procesos.

Yo personalmente recomendaría a Cassandra como la tecnología para una solución de Big Data, ya que está específicamente diseñada para permitir una fácil implementación en varios nodos. Este artículo proporciona un buen ejemplo de por qué Cassandra es una buena opción para una aplicación web con uso intensivo de datos:

Cómo Discord almacena miles de millones de mensajes

En comparación con HBase (la base de datos que forma parte de Hadoop), Cassandra es conocida por su mayor rendimiento y disponibilidad. La única desventaja de Cassandra en comparación con HBase es que Cassandra no viene con buenas herramientas de análisis. Sin embargo, Hadoop y Cassandra se pueden combinar para proporcionar lo mejor de ambos mundos. Este artículo ofrece una breve descripción del proceso:

Cassandra vs. Hadoop: una mirada comparativa | Qubole

Finalmente, este artículo proporciona un resumen de una arquitectura de big data y contiene varios enlaces útiles para obtener más información sobre el tema:

Cómo se crean las aplicaciones web de Big Data

¿Cuáles son los campos donde se utiliza el análisis de big data?

¿Cuáles son ejemplos de datos primarios y datos secundarios?

¿Cuáles son las predicciones de resultados de las elecciones UP 2017 según el estudio de la ciencia de datos o el modelo de análisis predictivo?

Entrevistas de trabajo de análisis de datos: ¿qué puede decir sobre SQL como herramienta para mostrar sus habilidades?

¿Cómo comienza un novato con la ciencia de datos?

Estoy interesado en el análisis de conocimiento / ciencia de datos, y tomaré una Maestría en Consumer Analytics, ¿sería difícil conseguir un trabajo con poca experiencia?

Big Data: experto en datos científicos y obtener un conocimiento profundo sobre el perfil de desarrollo, administración y análisis e integración de múltiples sistemas juntos.

Adquirir experiencia en hasta 16 tecnologías a la vez en un solo pedido es el mejor boleto para el trabajo de sus sueños, una compañía de primer nivel y grandes ganancias. Intellipaat’s All in One Big Data y Data Big Data, ciencia de datos – Clases de capacitación de cursos combinados en línea | Big Data, Data Science – Cursos de cursos combinados El curso de Online Science Combo le otorga las tecnologías más respaldadas como Hadoop, Spark, Storm, Scala, No-SQL, Mahout, Splunk, Solr, Data Science, R Programming y estadísticas básicas y probabilidad.

Este curso de capacitación es un paquete integral para producir arquitectos y científicos de Big Data expertos, competentes y líderes. Inscribirse en este curso brindará a las personas un conocimiento profundo y el alcance de ser identificadas por las principales multinacionales del mundo.

Fiodar Sazanavets

Bueno, lo mejor que puede hacer es buscar opciones que brinden Infraestructura como servicio. He usado Amazon Elastic Map Reduce y es fantástico. Es bastante simple para empezar. Tiene la flexibilidad de elegir el software de administración de clúster y también la cantidad de nodos. Puede verificar los requisitos de recursos de cómputo que su proyecto necesita y, en consecuencia, seleccionar opciones.

Una vez que se autentica para usar la instancia subyacente de Amazon EC2 de su nodo maestro en su clúster hadoop, puede acceder a su clúster tal como lo haría localmente.

Más información aquí podría ayudar: Elastic Compute Cloud (EC2) Cloud Server & Hosting – AWS

Por último, recuerde finalizar / apagar su clúster, la facturación es muy alta a menos que esté probando con el plan gratuito de 1 año.

¡Espero que esto ayude!

Fiodar Sazanavets

Big Data es el nuevo científico de datos de títulos de trabajo. Si bien no está vinculado exclusivamente a los proyectos de Big Data, el rol del científico de datos los complementa debido a la mayor amplitud y profundidad de los datos que se examinan, en comparación con los roles tradicionales.

Un científico de datos representa una evolución desde el rol comercial o analista de datos. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemática Data Science, R, Mahout – Clases de capacitación de cursos combinados en línea | Data Science, R, Mahout – Cursos combinados de cursos en línea

Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

Fiodar Sazanavets

¡Arquitectura de Big Data explicada aquí!

Los principales desafíos del análisis de big data son el almacenamiento de datos, el análisis de datos, la conservación de la información, la visualización y la resolución de consultas. Todo el proceso de análisis de big data sigue una arquitectura compleja que comienza con el almacenamiento de datos y una unidad de procesamiento. Los científicos de datos de nSimpl mencionan que los desafíos de datos ahora se pueden agrupar bajo los 3V. Los 3V representan el volumen, la velocidad y la variedad de datos generados. Cualquier empresa de gestión de datos primero lo ayudará a identificar un sistema adecuado para el almacenamiento de datos. Esto es esencial no solo para producir análisis en tiempo real, sino también para la minería de datos en el futuro. Algunas de las partes esenciales de la arquitectura de análisis de datos son las siguientes:

La ingesta de datos será el primer paso para la compleja arquitectura de big data. Este es el punto de entrada de los datos al almacén de datos.
La unidad de almacenamiento de datos evaluará los datos y los organizará en secciones relevantes. La puesta en escena es el segundo paso para la arquitectura de big data. Este será el primer paso en la organización de los datos y es el paso más esencial para el análisis de datos.
La tercera parte de la arquitectura será la unidad de procesamiento de datos. Aquí se implementarán algoritmos para identificar los buenos datos. Los datos no estructurados también recibirán cambios de diseño relevantes para producir información efectiva, en la unidad de procesamiento.
El penúltimo paso en la arquitectura de diseño será la gestión del flujo de trabajo.
El paso final en toda la arquitectura es proporcionar acceso al cliente a la información relevante producida al analizar los datos generados.

El punto de acceso proporciona información sobre los flujos de datos. Las consultas presentadas por el cliente serán evaluadas contra los datos generados y la resolución será en forma de información visualmente comprensible. Por lo tanto, toda la arquitectura de análisis de big data está diseñada para proporcionar resultados relevantes a las consultas de los clientes.

Rachid Boukotos

Supongo que se pregunta qué necesita para comenzar a desarrollar una “solución de big data”. Entonces, la idea es tener primero una instalación local en su sistema de desarrollo y una vez que haya terminado de desarrollar su idea, busque la infraestructura de alojamiento para que entre en funcionamiento.

Para la instalación local de Hadoop, puede usar esta VM VM QuickStart QuickStart
Una vez que haya terminado de desarrollar, visite Cloudera o HDInsight: solución de big data de Hadoop | Microsoft Azure para alojar su servicio en la nube.

Rachid Boukotos

Lambda Architecture puede leer mucho sobre esto en este sitio web λ lambda-architecture.net

Fiodar Sazanavets

Use Hadoop para almacenamiento y procesamiento distribuido

Use R y Spark (pyspark si conoce Python) para análisis

Rachid Boukotos

More Interesting

¿Cuál es una buena herramienta GUI para PostgreSQL que tiene una vista con pestañas cómoda para resultados y consultas, fácil clasificación y agrupación de resultados, IntelliSense, un buen "generador de consultas" para ayudar con la sintaxis, soporte para el control de versiones del código SQL y una buena depuración ¿modo?

¿Cómo puede afectar el uso de videos a la industria de big data?

¿Cuál es la mejor base de datos para big data?

¿Por qué debería usar anaconda en lugar de las distribuciones tradicionales de Python para la ciencia de datos?

¿Qué paquete estadístico debo usar para el análisis de datos, R o SciPy?