¿Cuál es la forma más eficiente de dominar rápidamente la tecnología de Big Data?

Su pregunta no es específica, pero trataré de responderla lo mejor que pueda. Usaré Splunk como ejemplo, pero usted sustituye cualquier otra tecnología en su lugar. Dominar Splunk puede llevar años de práctica, investigación y experiencia. Solo conozco a una persona que es un “maestro” y justo el otro día le hice una pregunta sobre el comando Streamstats y dijo que nunca había oído hablar de eso. En otras palabras, verdaderamente “dominar” la tecnología de big data es un proceso muy largo.

Primero debes descargar Splunk y familiarizarte con la navegación y solo lo básico. Mire videos sobre los conceptos básicos y cómo comenzar. Lee tutoriales y juega con datos de muestra. Puede comenzar escribiendo búsquedas simples, creando paneles y visualizaciones, alertas, eventos de correlación y aún estará en la punta del iceberg. Este es el nivel de desarrollador y bastante básico en su mayor parte. Una vez que esté familiarizado con los conceptos básicos, comience a mirar las preguntas que la gente hace, aprenda de ellos e intente ayudar cuando pueda. Siguiente paso, cómo demonios llegan los datos allí. Probablemente quiera pedir un libro o encontrar muchos videos tutoriales para este. Este es el nivel de administrador. Desea poder indexar, crear extracciones de campo, asegurarse de que los datos fluyan lo suficiente, etc. Una vez más, estos son conceptos básicos. Ahora necesita aprender a configurar todo el sistema, incluidos los servidores, los indexadores, los reenviadores, etc. Ahora conoce los conceptos básicos de cada nivel y ya no es un novato. Déle un año de romper, arreglar, reparar, golpear la cabeza contra la pared y puede llegar al nivel intermedio.

TL: DR, la forma más eficiente es sumergirse. Comience a jugar con la tecnología, lea sobre esto, etc. Compre un libro y léalo incluso antes de comenzar a jugar con él. Sería una muy buena idea. Realmente depende de cómo aprendas mejor. Creo que estás siendo escéptico cuando dices “maestro”. Comience con lo básico y vaya ascendiendo. ¡Hacerte bueno y las empresas te amarán! ¡Buena suerte!

PD: No estoy tratando de ser malo o decir que no puedes dominar algo. Simplemente no creo que sea tan fácil como crees. Tomará tiempo, sea paciente y asegúrese de invertir mucho tiempo. ¿Tienes una novia? deshazte de ella, dile que estás dominando una tecnología de Big Data. ¿Videojuegos? Olvídalo. ¿Programas de televisión? Venda su televisor para cumplir sus objetivos, domine una tecnología de Big Data. ¿Dormir? 3 horas deberían ser suficientes, no seas débil. ¿Familia? Familia> todo.

No te tomes mi sarcasmo en serio.

Desde la instalación hasta los beneficios de la aplicación y el alcance futuro, el tutorial proporciona aspectos explicativos de cómo los alumnos pueden hacer el uso más eficiente de Hadoop y su ecosistema. También proporciona información sobre muchas de las bibliotecas y paquetes de Hadoop que muchos analistas y arquitectos de Big Data no conocen. Hadoop Tutorial, Apache Hadoop Tutorial en línea | Intelllipaat.com

Junto con varias plataformas de big data importantes y avanzadas como Map Reduce, Yarn, H Base, Impala, ETL Connectivity, configuración de clúster de múltiples nodos, Ozzie avanzado, Flume avanzado, Hue avanzado y Zookeeper también se explican ampliamente a través de ejemplos en tiempo real y escenarios, en este paquete de aprendizaje.

Para muchos de estos beneficios tecnológicos sobresalientes, la adopción de Hadoop es expedita. Dado que el número de organizaciones comerciales que adoptan la tecnología Hadoop para competir en el análisis de datos, aumentar el tráfico de clientes y mejorar las operaciones comerciales en general está creciendo a un ritmo rápido, el número respectivo de trabajos y la demanda de profesionales expertos de Hadoop aumenta a un ritmo cada vez más rápido. Cada vez más personas esperan dominar sus habilidades de Hadoop a través de cursos de capacitación profesional que podrían prepararlos para varias certificaciones de Hadoop de la era de la nube como CCAH y CCDH … Big Data, Data Science – Clases de capacitación de cursos combinados en línea | Big Data, Data Science – Cursos combinados de cursos en línea

Hadoop es un marco de código abierto que permite almacenar y procesar grandes datos en un entorno distribuido en grupos de computadoras utilizando modelos de programación simples. Está diseñado para escalar desde servidores individuales hasta miles de máquinas, cada una de las cuales ofrece computación y almacenamiento local.

Este breve tutorial proporciona una introducción rápida a Big Data, el algoritmo de reducción de mapas y el sistema de archivos distribuidos de Hadoop.

Hadoop es un marco de código abierto de Apache escrito en Java que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras utilizando modelos de programación simples. Una aplicación con marco Hadoop funciona en un entorno que proporciona almacenamiento distribuido y cómputo en grupos de computadoras. Hadoop está diseñado para escalar de un solo servidor a miles de máquinas, cada una de las cuales ofrece computación y almacenamiento local.

Hadoop Common: son bibliotecas y utilidades de Java requeridas por otros módulos de Hadoop. Estas bibliotecas proporcionan abstracciones a nivel del sistema de archivos y del sistema operativo y contienen los archivos y scripts Java necesarios para iniciar Hadoop.

Hadoop YARN: este es un marco para la programación de trabajos y la gestión de recursos de clúster.

Sistema de archivos distribuidos de Hadoop (HDFS ™): un sistema de archivos distribuido que proporciona acceso de alto rendimiento a los datos de la aplicación.

Hadoop Map Reduce: este es un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos.

Hadoop Map-reduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos en paralelo en grandes grupos (miles de nodos) de hardware Commodity de una manera confiable y tolerante a fallas.

El término Reducción de mapa en realidad se refiere a las siguientes dos tareas diferentes que realizan los programas de Hadoop:

La tarea de mapa: esta es la primera tarea, que toma datos de entrada y los convierte en un conjunto de datos, donde los elementos individuales se dividen en tuplas (pares clave / valor).

La tarea Reducir: esta tarea toma la salida de una tarea de mapa como entrada y combina esas tuplas de datos en un conjunto más pequeño de tuplas. La tarea de reducción siempre se realiza después de la tarea de mapa.

Por lo general, tanto la entrada como la salida se almacenan en un sistema de archivos. El marco se encarga de programar tareas, monitorearlas y volver a ejecutar las tareas fallidas.

El marco Map Reduce consta de un único maestro

Job Tracker y un esclavo

Rastreador de tareas por nodo de clúster. El maestro es responsable de la administración de recursos, rastreando el consumo / disponibilidad de recursos y programando las tareas del componente de trabajos en los esclavos, monitoreándolos y volviendo a ejecutar las tareas fallidas. Los esclavos Task Tracker ejecutan las tareas según las indicaciones del maestro y proporcionan información del estado de la tarea al maestro periódicamente.

Job Tracker es un punto único de falla para el servicio Hadoop Map Reduce, lo que significa que si Job-tracker se cae, todos los trabajos en ejecución se detienen.

Obtenga Cloudera VM 5.4 de Descargas de inicio rápido para CDH 5.5

Mire el canal de youtube por IT Versity en Hadoop Certifications – Cloudera Certified Associate Spark y Hadoop Developer

Consulte mi Blog de Big Data, IA y Machine Learning en Phumlani Mbabela, estudie el código y estudie el material.

Es un gran campo. Solo diría algunos puntos críticos para prever. No se pueden desarrollar todos a la experiencia. Puntos: AI, IoT, Big Data, Business Analytics, C-suite, Empresas, Industrias, Sociedades, Economía, Política y Educación. Son como etiquetas hash y conectadas. Necesitas entender cómo encajan las piezas. Son un gran esquema. Big Data es un nombre para el uso de datos a gran escala y su análisis. Los datos se están convirtiendo en un recurso, para ser breves.

Creo que la forma más rápida es tener un sentido de la tecnología de big data jugando con Hadoop si esto es lo que quiere decir “dominar la tecnología de big data”.

En primer lugar, elija algunos sistemas de gestión de Hadoop como MapR, Hortonworks o Cloudera. Hasta donde sé, se trata de VM de inicio rápido en el administrador de Cloudera. Puede iniciar un clúster de Hadoop muy pronto en su propia computadora portátil, no necesita tantos recursos.

En segundo lugar, hay algunos conjuntos de datos abiertos en Internet, puede descargarlos y cargarlos en HDFS. Puede hacer un estadístico básico sobre él usando Hive o Impala o usar un mapa genérico JAVA para escribir un script Word-Count.

Si quieres probar más, puedes usar spark o R para hacer algún algoritmo de aprendizaje automático.

Todavía soy nuevo en la tecnología de Big Data y este campo se está moviendo rápidamente y necesito que las personas contribuyan con más pensamiento o uso en este campo.

Creo que lo que dije puede ser un comienzo rápido para la tecnología de big data. Espero que te sea útil.

More Interesting

¿Cuál es la pregunta clave con respecto al gráfico social que solo el análisis de datos puede responder?

Actualmente, estoy trabajando con la tecnología AS400 y quiero ingresar al análisis de datos. ¿Cuál debería ser mi primer paso?

¿Tendrá Gmail que finalizar su límite de almacenamiento que aumenta automáticamente?

Qué tan bien se traduce la economía de pregrado (y algunas estadísticas) a trabajar en ciencia de datos. ¿Qué posición (es) debo considerar?

¿Cuáles son las compañías en India que trabajan en el dominio de las ciencias de datos aparte de Mu Sigma?

¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?

¿Cuál es el mejor entre las redes, big data y tecnología en la nube?

¿Qué tan popular es SPSS entre los científicos de datos?

¿Existen estudios de big data en las cadenas de suministro?

¿Cuáles son los temas candentes para una tesis de maestría relacionada con el aprendizaje profundo o big data?

¿Cuál es el mejor libro para aprender Python para la ciencia de datos?

¿De dónde obtienen sus datos plataformas como CrunchBase, Dealflow, Exitround y PitchBook?

¿Cómo debo trabajar en las estadísticas requeridas para el diseño experimental y el análisis de datos (datos neuronales / datos de comportamiento) en el primer año de posgrado?

¿Cuál es la diferencia entre analista de datos y científico?

¿Está garantizado el entusiasmo por la ciencia de datos? Si es así, ¿por qué?