¿Qué necesitaría para configurar una arquitectura de Big Data?

En mi opinión, hay 3 puntos fundamentales que una aplicación de Big Data debería tener:

  1. Alta disponibilidad
  2. Alto rendimiento
  3. Analítica

Los primeros 2 puntos se logran mediante diversos grados de replicación, equilibrio de carga y fragmentación de la base de datos. El equilibrio de carga es un proceso de replicar su código en muchos servidores y hacer que cada servidor comunique su estado y disponibilidad. Por lo tanto, cualquier solicitud se enviará solo a servidores que estén disponibles y que otras solicitudes no hayan sobrecargado. Una aplicación de big data a gran escala como Facebook tendría miles de servidores dedicados al equilibrio de carga.

La división de bases de datos es el proceso de dividir una base de datos en varias bases de datos ubicadas en diferentes servidores. Cada base de datos tendrá la misma estructura de datos, pero almacenará diferentes filas de datos. Cada una de esas bases de datos se denominará “nodo”. Por ejemplo, si una aplicación almacena detalles de millones de usuarios y metadatos asociados, los usuarios pueden agruparse en diferentes bases de datos basadas, por ejemplo, en la ubicación geográfica, una letra del alfabeto o un año de registro. Como los procesos de lectura desde disco, escritura en disco y escaneo de grandes tablas de bases de datos son computacionalmente costosos, esta configuración actúa como un equilibrio de carga para estos procesos.

Yo personalmente recomendaría a Cassandra como la tecnología para una solución de Big Data, ya que está específicamente diseñada para permitir una fácil implementación en varios nodos. Este artículo proporciona un buen ejemplo de por qué Cassandra es una buena opción para una aplicación web con uso intensivo de datos:

Cómo Discord almacena miles de millones de mensajes

En comparación con HBase (la base de datos que forma parte de Hadoop), Cassandra es conocida por su mayor rendimiento y disponibilidad. La única desventaja de Cassandra en comparación con HBase es que Cassandra no viene con buenas herramientas de análisis. Sin embargo, Hadoop y Cassandra se pueden combinar para proporcionar lo mejor de ambos mundos. Este artículo ofrece una breve descripción del proceso:

Cassandra vs. Hadoop: una mirada comparativa | Qubole

Finalmente, este artículo proporciona un resumen de una arquitectura de big data y contiene varios enlaces útiles para obtener más información sobre el tema:

Cómo se crean las aplicaciones web de Big Data

Big Data: experto en datos científicos y obtener un conocimiento profundo sobre el perfil de desarrollo, administración y análisis e integración de múltiples sistemas juntos.

Adquirir experiencia en hasta 16 tecnologías a la vez en un solo pedido es el mejor boleto para el trabajo de sus sueños, una compañía de primer nivel y grandes ganancias. Intellipaat’s All in One Big Data y Data Big Data, ciencia de datos – Clases de capacitación de cursos combinados en línea | Big Data, Data Science – Cursos de cursos combinados El curso de Online Science Combo le otorga las tecnologías más respaldadas como Hadoop, Spark, Storm, Scala, No-SQL, Mahout, Splunk, Solr, Data Science, R Programming y estadísticas básicas y probabilidad.

Este curso de capacitación es un paquete integral para producir arquitectos y científicos de Big Data expertos, competentes y líderes. Inscribirse en este curso brindará a las personas un conocimiento profundo y el alcance de ser identificadas por las principales multinacionales del mundo.

Bueno, lo mejor que puede hacer es buscar opciones que brinden Infraestructura como servicio. He usado Amazon Elastic Map Reduce y es fantástico. Es bastante simple para empezar. Tiene la flexibilidad de elegir el software de administración de clúster y también la cantidad de nodos. Puede verificar los requisitos de recursos de cómputo que su proyecto necesita y, en consecuencia, seleccionar opciones.

Una vez que se autentica para usar la instancia subyacente de Amazon EC2 de su nodo maestro en su clúster hadoop, puede acceder a su clúster tal como lo haría localmente.

Más información aquí podría ayudar: Elastic Compute Cloud (EC2) Cloud Server & Hosting – AWS

Por último, recuerde finalizar / apagar su clúster, la facturación es muy alta a menos que esté probando con el plan gratuito de 1 año.

¡Espero que esto ayude!

Big Data es el nuevo científico de datos de títulos de trabajo. Si bien no está vinculado exclusivamente a los proyectos de Big Data, el rol del científico de datos los complementa debido a la mayor amplitud y profundidad de los datos que se examinan, en comparación con los roles tradicionales.

Un científico de datos representa una evolución desde el rol comercial o analista de datos. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemática Data Science, R, Mahout – Clases de capacitación de cursos combinados en línea | Data Science, R, Mahout – Cursos combinados de cursos en línea

Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

¡Arquitectura de Big Data explicada aquí!

Los principales desafíos del análisis de big data son el almacenamiento de datos, el análisis de datos, la conservación de la información, la visualización y la resolución de consultas. Todo el proceso de análisis de big data sigue una arquitectura compleja que comienza con el almacenamiento de datos y una unidad de procesamiento. Los científicos de datos de nSimpl mencionan que los desafíos de datos ahora se pueden agrupar bajo los 3V. Los 3V representan el volumen, la velocidad y la variedad de datos generados. Cualquier empresa de gestión de datos primero lo ayudará a identificar un sistema adecuado para el almacenamiento de datos. Esto es esencial no solo para producir análisis en tiempo real, sino también para la minería de datos en el futuro. Algunas de las partes esenciales de la arquitectura de análisis de datos son las siguientes:

  • La ingesta de datos será el primer paso para la compleja arquitectura de big data. Este es el punto de entrada de los datos al almacén de datos.
  • La unidad de almacenamiento de datos evaluará los datos y los organizará en secciones relevantes. La puesta en escena es el segundo paso para la arquitectura de big data. Este será el primer paso en la organización de los datos y es el paso más esencial para el análisis de datos.
  • La tercera parte de la arquitectura será la unidad de procesamiento de datos. Aquí se implementarán algoritmos para identificar los buenos datos. Los datos no estructurados también recibirán cambios de diseño relevantes para producir información efectiva, en la unidad de procesamiento.
  • El penúltimo paso en la arquitectura de diseño será la gestión del flujo de trabajo.
  • El paso final en toda la arquitectura es proporcionar acceso al cliente a la información relevante producida al analizar los datos generados.

El punto de acceso proporciona información sobre los flujos de datos. Las consultas presentadas por el cliente serán evaluadas contra los datos generados y la resolución será en forma de información visualmente comprensible. Por lo tanto, toda la arquitectura de análisis de big data está diseñada para proporcionar resultados relevantes a las consultas de los clientes.

Supongo que se pregunta qué necesita para comenzar a desarrollar una “solución de big data”. Entonces, la idea es tener primero una instalación local en su sistema de desarrollo y una vez que haya terminado de desarrollar su idea, busque la infraestructura de alojamiento para que entre en funcionamiento.

  1. Para la instalación local de Hadoop, puede usar esta VM VM QuickStart QuickStart
  2. Una vez que haya terminado de desarrollar, visite Cloudera o HDInsight: solución de big data de Hadoop | Microsoft Azure para alojar su servicio en la nube.

Lambda Architecture puede leer mucho sobre esto en este sitio web λ lambda-architecture.net

Use Hadoop para almacenamiento y procesamiento distribuido

Use R y Spark (pyspark si conoce Python) para análisis

More Interesting

¿Cuál es una buena herramienta GUI para PostgreSQL que tiene una vista con pestañas cómoda para resultados y consultas, fácil clasificación y agrupación de resultados, IntelliSense, un buen "generador de consultas" para ayudar con la sintaxis, soporte para el control de versiones del código SQL y una buena depuración ¿modo?

¿Cómo puede afectar el uso de videos a la industria de big data?

¿Cuál es la mejor base de datos para big data?

¿Por qué debería usar anaconda en lugar de las distribuciones tradicionales de Python para la ciencia de datos?

¿Qué paquete estadístico debo usar para el análisis de datos, R o SciPy?

¿Será un buen paso cambiar de carrera de pruebas de software a científico de datos con R, Tableau y sobresalir después de 9 años de experiencia?

¿Qué recopiló / recopiló para comenzar con la visualización de datos?

¿Qué tan útil es Matlab, para Kaggle, en comparación con R y Python?

¿Cómo pasaste de ser un estudiante de sociología a alguien que cursa estudios de posgrado en ciencia de datos?

Soy un estudiante de biología / psicología, pero quiero entrar en ciencia de datos y aprendizaje automático. Soy un senior, así que no estoy en condiciones de volver a declarar mi especialidad. ¿Cuál sería una buena pista para mí aprender sobre ciencia de datos y programación, y eventualmente conseguir un trabajo en investigación / programación?

¿Qué libro o curso en línea sería el mejor para aprender estadísticas para la ciencia de datos?

¿Cuáles son algunas buenas hojas de trucos de ciencia de datos?

¿Cuál es la diferencia entre data.frame y data.table en R (lenguaje de programación)?

¿Por qué no tenemos un sistema de transacción de datos que transfiera datos en forma de sistemas decimales en lugar de binarios (0 y 1) en las computadoras? ¿Cuál es la viabilidad de tener ese tipo de transacción de datos?

¿Flipkart tiene un grupo de ciencia de datos cautivo o algo similar? ¿Flipkart emplea 'Data Scientists'?