Cómo aprender big data

Creo que la mejor manera de aprender algo es hacerlo realmente. Afortunadamente para nosotros, hay muchísimas tecnologías de big data y herramientas analíticas que son de código abierto o le brindan la posibilidad de aprender de forma gratuita a través de una licencia de prueba / desarrollo. Entonces, esto es lo que haría.

En aras de proporcionar una respuesta algo simple, supondré que la herramienta de big data que desea utilizar es la pila Hadoop. Y en aras de no proporcionar una respuesta demasiado simple, que no está buscando una solución industrial o proveedor de SaaS ya construido. En términos generales, las bases de datos NoSQL no se usan realmente para análisis (pero pueden ser una fuente).

1) Piensa en un problema de big data que quieras resolver.

Tradicionalmente, los grandes datos han sido descritos por los “3V”: volumen, variedad, velocidad. ¿Cuál es un problema real de análisis que se resuelve mejor con herramientas de big data? ¿Qué tipo de métricas quieres capturar? Los casos de uso más comunes hoy en día implican raspar grandes volúmenes de datos de registro. Esto se debe a que los datos de registro tienden a ser muy desestructurados, pueden provenir de múltiples fuentes y, especialmente para sitios web populares, pueden ser enormes (terabytes + por día). Por lo tanto, tener un marco para realizar tareas informáticas distribuidas es esencial para resolver este problema.

2) Descargue y configure su solución de big data

Lo más fácil es usar una máquina virtual preconstruida que casi cualquier proveedor de Hadoop pone a disposición gratuitamente [1], y luego ejecutarla localmente. También puede usar un servicio como Amazon Web Services. La mayoría de las personas usarán el marco de reducción de mapas y Hive para procesar grandes volúmenes de datos. Como solo está buscando aprender, no necesitará terabytes, o incluso gigabytes de datos para jugar, por lo que obtener acceso a un clúster de 100 nodos no será una prioridad. Aunque ciertamente hay desafíos que superar y comprender una vez que comience a entrar en entornos de múltiples nodos.

3) Resuelve tu problema de big data
Una vez que haya configurado su entorno, ¡empiece a codificar! Hay mucha documentación y tutoriales para consultar y aprender de [2]. Y realmente, simplemente escriba preguntas en Google y obtendrá una tonelada de recursos. Lea las herramientas y comprenda cómo se puede aplicar la tecnología para resolver su caso de uso. Piense en los tipos de métricas que desea capturar dentro de sus datos. Piense en qué tipo de programas de reducción de mapas necesitará escribir para capturar los datos que desea analizar. Piense en cómo puede aprovechar algo como Hive o Pig para hacer muchos de los cálculos de números pesados. Algo que probablemente no será evidente en un entorno de un solo nodo, pero que es un problema del mundo real en cualquier entorno distribuido, es comprender el sesgo de datos y cómo afecta el rendimiento [3].

4) Análisis y visualización: el lado sexy de Big Data y BI
Ahora que ha resuelto su problema de big data y tiene sus datos en un formato manejable, es hora de deslumbrar a su jefe con algunos buenos informes. La mayoría de las arquitecturas empresariales que aprovechan Hadoop seguirán teniendo una base de datos SQL para almacenar e informar datos de Hadoop (rápidamente se dará cuenta de que map-reduce tiene un tiempo de respuesta muy largo, incluso en pequeños conjuntos de datos). Cargar datos desde Hadoop y hacia una base de datos SQL es una buena práctica para el mundo real, pero no es necesario aprender el lado de los grandes datos. Existen varias herramientas de informes (gratuitas) que se conectarán a Hadoop / Hive directamente y funcionarán bien con fines de aprendizaje [4]. Si quieres ser el chico genial de la cuadra (y super empleable en grandes empresas), elegiría Tableau (producto) [5]. También podría prestarse para adquirir algunas habilidades de modelado predictivo y aprendizaje automático con algunas de las herramientas que existen [6], ¡y tal vez comenzar a llamarse científico de datos!

[1]
Soporte de Cloudera
Sandbox de Hortonworks
Descargar (MapR)

[2]
¡Bienvenido a Apache ™ Hadoop®!
¡Bienvenido a Hive!
Tutorial Hadoop
Tutorial de Hadoop – YDN
http://pig.apache.org/docs/r0.7….

[3]
http://www-db.in.tum.de/research…

[4]
Productos Pentaho
Jaspersoft :: Jaspersoft Business Intelligence Software
http://www.splunk.com/

[5]
Software de Tableau

[6]
El proyecto R para computación estadística
http://www.sas.com/
Aprendizaje automático escalable y minería de datos

Big Data es un campo en crecimiento y es probable que tenga mucho que aprender si desea obtener más información. Trataré de proporcionar el camino que tomé:

1. Comience aprendiendo un lenguaje de programación:

Si desea abordar Big data, debe conocer Python / Java. Si no sabe, ambos comienzan con Python. Simplemente comience con lo básico: bucle For, listas, diccionarios, iteración a través de una lista y un diccionario, etc. Le aconsejaría que tome este curso sobre edX: Introducción a la informática y programación usando Python
En el resto de esta publicación, supondré que siguió mi sugerencia y está usando Python.

Créditos de imagen: xkcd

2. Aprenda sobre una plataforma de Big Data:

Una vez que sienta que puede resolver problemas básicos con Python / Java, está listo para el siguiente paso. Necesita aprender sobre alguna tecnología de Big Data como Hadoop / Spark. Ahora también podría comenzar con Spark, pero creo que Hadoop sería el mejor lugar para comenzar, ya que puede proporcionarle más antecedentes del paradigma Mapreduce y podrá comprender los problemas que resuelve la introducción de Spark.
Para aprender Hadoop, te aconsejaría que eches un vistazo a este curso sobre Udacity:
https://www.udacity.com/course/intro-to-hadoop-and-mapreduce–ud617

Una vez que haya terminado este curso, habrá adquirido una comprensión bastante básica de los conceptos y habrá instalado una máquina virtual Hadoop en su propia máquina. También habría resuelto el problema básico de Wordcount.

Lea esta increíble publicación de blog de Michael Noll: Escribir un programa Hadoop MapReduce en Python – Michael G. Noll. Simplemente lea los códigos básicos de reducción de mapas. No utilices iteradores y generadores todavía. Este ha sido un punto de partida para muchos de nosotros, desarrolladores de Hadoop.

Ahora intente resolver estos dos problemas del curso CS109 Harvard de 2013:

A. Primero, tome el archivo word_list.txt de la página en github.com. Este contiene una lista de palabras de seis letras. Para simplificar las cosas, todas las palabras consisten solo en letras minúsculas. Escriba un trabajo mapreduce que encuentre todos los anagramas en word_list.txt.

B. Para el siguiente problema, descargue el archivo baseball_friends.csv. Cada fila de este archivo csv contiene lo siguiente:

  • El nombre de una persona
  • El equipo al que está apoyando esa persona, ya sea “Cardenales” o “Medias Rojas”
  • Una lista de amigos de esa persona, que podría tener una longitud arbitraria

Por ejemplo: la primera línea nos dice que Aaden es un amigo de los Medias Rojas y que tiene 65 amigos, todos los cuales se enumeran aquí. Para este problema, es seguro asumir que todos los nombres son únicos y que la estructura de la amistad es simétrica ( es decir, si Alannah aparece en la lista de amigos de Aaden, entonces Aaden aparecerá en la lista de amigos de Alannah).
Escriba un trabajo de señor que enumere el nombre de cada persona, su equipo favorito, la cantidad de fanáticos de los Red Sox de los que son amigos y la cantidad de fanáticos de los Cardinals de los que son amigos.

Intenta hacer esto tú mismo. No use la forma mrjob (pronunciada Mr. Job) que usan en la clase CS109. Use la forma adecuada de transmisión de Hadoop como se enseña en la clase Udacity, ya que es mucho más personalizable a largo plazo. Si tienes problemas, podría guiarte. Hazme ping.

Si ya ha terminado con esto, puede llamarse a sí mismo como alguien que podría “pensar en Mapreduce” como a la gente le gusta llamarlo. Intente hacer groupby, filtrar y unirse usando Hadoop. Puedes leer algunos buenos trucos de mi blog:
Hadoop Mapreduce Streaming Trucos y Técnicas

Y no te olvides de la API de transmisión de Hadoop. Léelo !!!!!

3. Aprenda un poco de secuencias de comandos Bash:

Mientras tanto, mientras aprende Hadoop y en el proceso de ensuciarse las manos con la codificación, intente leer sobre las secuencias de comandos de shell.
Le permite realizar tareas simples relacionadas con los datos en el propio terminal.
Lea estos tutoriales para hacerlo:

Conceptos básicos de Shell que todo científico de datos debe saber -Parte I
Conceptos básicos de Shell que todo científico de datos debe saber – Parte II (AWK)

Uso comandos de shell porque son rápidos y no necesito escribir un script para todos y cada uno.

4. Aprenda Spark:


Ahora viene la siguiente parte de tu proceso de aprendizaje. Esto debe llevarse a cabo después de un
Un poco de experiencia con Hadoop. Spark le proporcionará la velocidad y las herramientas que Hadoop no pudo. Pero necesitas saber Scala / Python para usarlo. Esa es una de las razones por las que sugerí que usa Python si no conoce Java / Python.

Ahora Spark se usa para la preparación de datos y para fines de aprendizaje automático. Le animo a que eche un vistazo a estos dos cursos en edX proporcionados por los instructores de Berkeley. El segundo curso también te ayudaría a comenzar un poco con el aprendizaje automático.

1. Introducción a Big Data con Apache Spark
2. Aprendizaje automático escalable

He escrito un poco sobre el procesamiento de datos básicos con chispa aquí:
Learning Spark usando Python: Conceptos básicos y aplicaciones

Si no realiza los cursos, intente resolver los mismos dos problemas anteriores que resolvió Hadoop utilizando Spark también. De lo contrario, el problema planteado en los dos cursos es más que suficiente.

Y lo siento por todos los enchufes desvergonzados, pero siento que agregan valor, así que los agregué.

Espero que esto ayude. Ahora empieza a trabajar!

Bigdata es como una combinación de un montón de temas. Principalmente requieren programación, análisis, nlp, MLP, matemáticas.

Aquí hay un montón de cursos que encontré:

  • Curso de Introducción al CS
    Notas: Curso de Introducción a la Informática que proporciona instrucciones sobre codificación.
    Recursos en línea:
    Udacity – introducción al curso de CS,
    Coursera – Informática 101
  • Código en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
    Recursos en línea para principiantes:
    Coursera – Aprender a programar: los fundamentos,
    Introducción del MIT a la programación en Java,
    Python Class de Google,
    Coursera – Introducción a Python,
    Libro electrónico de código abierto de Python

    Recursos en línea intermedios:
    Diseño de programas informáticos de Udacity,
    Coursera – Learn to Program: Crafting Quality Code,
    Coursera – Lenguajes de programación,
    Brown University – Introducción a los lenguajes de programación

  • Aprende otros lenguajes de programación
    Notas: Agregue a su repertorio: Java Script, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
    Recursos en línea: w3school.com – Tutorial HTML, Aprenda a codificar
  • Prueba tu código
    Notas: aprenda a detectar errores, crear pruebas y romper su software
    Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
  • Desarrollar razonamiento lógico y conocimiento de matemáticas discretas.
    Recursos en línea:
    MIT Matemáticas para Informática,
    Coursera – Introducción a la lógica,
    Coursera – Optimización lineal y discreta,
    Coursera – Modelos gráficos probabilísticos,
    Coursera – Teoría de juegos.
  • Desarrollar una sólida comprensión de los algoritmos y las estructuras de datos.
    Notas: Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.
    Recursos en línea:
    Introducción a los algoritmos del MIT,
    Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
    Wikipedia – Lista de algoritmos,
    Wikipedia – Lista de estructuras de datos,
    Libro: El manual de diseño de algoritmos
  • Desarrollar un sólido conocimiento de los sistemas operativos.
    Recursos en línea: UC Berkeley Computer Science 162
  • Aprenda recursos de inteligencia artificial en línea:
    Stanford University – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
  • Aprende a construir compiladores
    Recursos en línea: Coursera – Compiladores
  • Aprende criptografía
    Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
  • Aprender programación paralela
    Recursos en línea: Coursera – Programación paralela heterogénea

Herramientas y tecnologías para Bigdata:

Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en AMPLab en UC Berkeley. [1] Spark se adapta a la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

Canalización de bases de datos
Como notará, no se trata solo de procesar los datos, sino que involucra muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

SOLR : Solr para construir un motor de análisis de datos altamente escalable que permita a los clientes participar en el descubrimiento de conocimiento en tiempo real a la velocidad de la luz.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupación dinámica, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar búsqueda distribuida y replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por Amazon Web Services. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en grupos de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache construido y utilizado por una comunidad global de contribuyentes y usuarios. Tiene licencia de Apache License 2.0. Apache Hadoop

MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos) de hardware básico de manera confiable y tolerante a fallas.

Un trabajo de MapReduce generalmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados ​​por las tareas de mapa de manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan a las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar tareas, monitorearlas y volver a ejecutar las tareas fallidas.

Corona:

Corona, un nuevo marco de programación que separa la gestión de recursos del clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clúster cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo, y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).

Una diferencia importante con respecto a nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull. Después de que el administrador de clúster recibe solicitudes de recursos del rastreador de trabajos, devuelve las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene subvenciones de recursos, crea tareas y luego las empuja a los rastreadores de tareas para su ejecución. No hay latidos cardíacos periódicos involucrados en esta programación, por lo que se minimiza la latencia de programación. Ref: Under the Hood: Programando trabajos MapReduce más eficientemente con Corona

HBase: HBase es una base de datos distribuida, no relacional y de código abierto, inspirada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), proporcionando capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a fallas de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturadas dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el elementos distintos de cero que representan menos del 0.1% de una gran colección).

Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper era un subproyecto de Hadoop pero ahora es un proyecto de nivel superior por derecho propio.

Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es utilizado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en Amazon Web Services.

Mahout – Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones usan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas Java para operaciones matemáticas comunes (centradas en álgebra lineal y estadística) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero todavía faltan varios algoritmos.

Lucene es un conjunto de herramientas relacionadas con la búsqueda y PNL, pero su característica principal es ser un índice de búsqueda y un sistema de recuperación. Toma datos de una tienda como HBase y los indexa para una recuperación rápida de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.

Sqoop es una interfaz de línea de comandos para respaldar datos SQL en un almacén distribuido. Es lo que puede usar para tomar instantáneas y copiar las tablas de su base de datos en un almacén de Hive todas las noches.

Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una sola interfaz y apunta a la experiencia del usuario. Su objetivo principal es hacer que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usando una línea de comando

Pregel y su código abierto gemelo Giraph es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que Hadoop / MapReduce se evitan en este modelo, pero HDFS / GFS todavía se usa como un almacén de datos.

NLTK: el Kit de herramientas de lenguaje natural , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Está acompañado por un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento de lenguaje admitidas por el kit de herramientas, además de un libro de cocina.

NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluida la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

Para Python
Scikit Learn

Numpy

Scipy

Freebase: Freebase es una gran base de conocimiento colaborativo que consta de metadatos compuestos principalmente por los miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales ‘wiki’.

DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.

Herramienta de visualización
ggplot en R
Tableu
Qlikview

Matemáticas : )

Cálculo, estadística, probabilidad, álgebra lineal y geometría coordinada

El reconocimiento de entidad con nombre (NER) NER etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y compañías, o nombres de genes y proteínas.

Búsqueda por facetas: la búsqueda por facetas, también llamada navegación por facetas o navegación por facetas, es una técnica para acceder a la información organizada según un sistema de clasificación por facetas, lo que permite a los usuarios explorar una colección de información mediante la aplicación de múltiples filtros. Un sistema de clasificación por facetas clasifica cada elemento de información a lo largo de múltiples dimensiones explícitas, llamadas facetas, lo que permite acceder a las clasificaciones y ordenarlas de varias maneras en lugar de en un solo orden taxonómico predeterminado.

Fuente: Wikipedia, la enciclopedia libre.

Haga esta fuente más rica aquí: karimkhanp / bigdata_resource

Primero debe tener un conocimiento detallado sobre el panorama general de Big Data: su descripción general, su problema, solución, demanda y alcance futuro y luego comenzar a reunir conocimiento sobre las herramientas como Hadoop, Spark, codificación en Java, etc. Más adelante si todo esto te intriga, puedes tomar un curso de certificación para hacer tu carrera en la industria de Big Data.

Le explicaré Big Data en detalle y luego le daré un resumen sobre Hadoop también. También le proporcionaré un enlace a los blogs, tutoriales y videos para comenzar a aprender Hadoop.

Big Data

¿Sabes que el mundo se está digitalizando y conectando cada vez más con la electrónica de todas las formas? Esto genera “2.5 bytes quintilianos” de datos todos los días. Estos datos se recopilan de sus actividades a lo largo del día.

¿Entiende de dónde provienen estos datos?

Los datos se obtienen de sus actividades en las redes sociales y al proporcionar su información a diferentes aplicaciones y sitios web . Cada vez que hace clic en la casilla de verificación ‘Acepto’, permite que esas aplicaciones rastreen todas sus actividades en su teléfono móvil y escritorio, como sus búsquedas en la web, actividades de compras de comercio electrónico, lista de contactos, imágenes, etc.

También se recopilan datos de sus actividades que no sean en ‘su’ dispositivo móvil o de escritorio; como cuando visita un hospital, centro comercial, tienda minorista, surtidor de gasolina, bancos e incluso restaurantes y cines. Las cámaras de CCTV y diferentes sensores también generan datos.

Cosas no humanas como un poste de electricidad, un avión o un automóvil automático también generan Big Data.

Tomemos la instancia de los automóviles.

En los automóviles conectados, se pueden extraer datos de los sensores del automóvil e inferencias sobre el comportamiento del consumidor. Por ejemplo, para saber si hay un vínculo entre la música que las personas escuchan y los restaurantes que frecuentan.

También hay un buen potencial para la conducción autónoma para mantener nuestras carreteras más seguras. Para que esto se haga realidad, requieren Big Data. Estos vehículos están integrados con sensores que miden todo, desde la posición, la velocidad, la dirección hasta la rotura de las señales de tránsito, la proximidad de peatones y los peligros. Con estos datos, el vehículo puede tomar decisiones y llevar a cabo respuestas apropiadas sin errores humanos.

Este tipo de conexiones pueden ayudar a la toma de decisiones de seguridad, diseño de productos, asignación de recursos publicitarios y presupuestos, y por lo tanto, la información recopilada de diferentes fuentes es invaluable comercialmente.

A estas alturas ya debe haber podido imaginar cuán grande es el Big Data. Ahora veamos los problemas relacionados con el big data.

El problema de Big Data

Big Data son datos enormes, menos estructurados, heterogéneos y difíciles de manejar, que incluyen hasta más allá del petabyte. Estos datos son incomprensibles a escala humana.

Hace más de una década, Google desarrolló una forma en que Yahoo clonó para distribuir datos a través de grandes grupos de productos básicos y procesar trabajos por lotes simples para comenzar a extraer grandes conjuntos de datos en forma de lotes ad-hoc de manera rentable. El método había evolucionado como Hadoop.

Hadoop es la herramienta más popular y solicitada en Big Data. También hay otros como Spark, Lumify, Apache strom, Apache samoa, etc.

Solo una pequeña parte de la población está suficientemente capacitada con estos métodos para dar sentido a los grandes datos.

Hay pirámides de comprensión que los humanos tienen que hacer con los datos y la información que generan.

Las tareas y desafíos relacionados con Big Data son:

  1. Reconocimiento de datos
  2. Produzca ideas para encontrar los datos específicos que pueden ayudarlo.
  3. Modelado y simulación o formas innovadoras de ejecutar los problemas que Big Data puede resolver.
  4. Formas efectivas y eficientes de contextualizar los datos para que sean relevantes para individuos y grupos específicos
  5. Analizar y visualizar los resultados de Big Data.
  6. Almacenamiento de transmisión y procesamiento de Big Data para extraer información de él.

También hay muchos desafíos secundarios por debajo de los problemas. Pero las tecnologías han encontrado soluciones a estos problemas. Son las tecnologías como Hadoop y Spark.

Hadoop

Hadoop es un marco de código abierto, escalable y tolerante a fallas de la fundación Apache Software y está codificado en Java. Código abierto: significa que está disponible de forma gratuita para todos y su origen también se puede cambiar según los requisitos.

Hadoop procesa Big data en un clúster de hardware básico. Si una determinada función falla o no satisface su necesidad, puede cambiarla en consecuencia.

Las compañías populares de Hadoop son Yahoo, IBM, Facebook y Cloudera.

Hadoop no es solo un sistema de almacenamiento, sino una plataforma para el almacenamiento y procesamiento de grandes datos.

Proporciona un marco bien organizado para ejecutar trabajos en múltiples nodos de clústeres.

Apache Hadoop procesa datos en paralelo a medida que procesa en varias máquinas en paralelo al mismo tiempo.

Para comenzar a aprender Hadoop, proporciono una lista de algunos tutoriales que puede seguir:

  1. Hadoop: Video Tutorial
  2. Características de Hadoop y principios de diseño
  3. Componentes del ecosistema de Hadoop y su papel
  4. Terminologías de Big Data y conceptos de Hadoop que debe conocer
  5. Cómo funciona Hadoop: aprenda el funcionamiento interno de Hadoop
  6. Cómo configurar y configurar Hadoop CDH5 en Ubuntu 14.0.4
  7. Caché Distribuido en Hadoop – Introducción, Pros y Contras
  8. Hadoop NameNode Automatic Failover

¡Todo lo mejor!

Ya he respondido a este tipo de preguntas anteriormente y me gustaría agregar algunos puntos aquí también.

Primero me gustaría insistir en que la gente siga la siguiente pregunta para comprender el futuro de la “Tecnología de Big Data”

La respuesta de Akash Dugam a ¿Aumentarán los salarios de los científicos de datos en la próxima década?

Ahora hablemos de cómo lo lograrías. 🙂

Hoy en día, “Big Data” tuvo un gran auge en los sectores de TI de todo el mundo. Como todos sabemos sobre los trabajos analíticos que pagan mucho. Enorme cantidad de datos que generamos día a día para ser administrados para este propósito BIG DATA entra en escena.

Como hay una descripción adjunta a esta pregunta, ¿no podría obtener más detalles sobre su conocimiento o de qué campo es? que trabajo haces Estas preguntas son muy importantes. Te consideraré más fresco e intentaré responder a tu pregunta.

Big data no es una asignatura o idioma, por lo que puede aprender estudiándolo. En realidad es una combinación de un montón de temas, tecnologías, etc.

Consideremos esta ecuación,

Big Data = Habilidades de programación + Estructura de datos y algoritmos + Habilidades analíticas + Habilidades de base de datos + Matemáticas + Aprendizaje automático + PNL + OS + Criptografía + Programación paralela.

¡Si! No estoy bromeando aquí, realmente necesitas tener conocimiento de estos temas.

Pero no te preocupes, puedes prepararlo desde cero. Hay enormes recursos disponibles en Internet que lo ayudarán a dominar todas las habilidades.

1] Antes de comenzar:

Me he encontrado con el hermoso curso introductorio de la universidad de Stanford. Si eres un novato en el campo de la informática, completa el curso CS101.

Aquí está el enlace para registrarse en CS101:

Informática 101

2] Habilidades de programación:

Como mencioné anteriormente, las habilidades de programación son obligatorias para comenzar con Big Data. Necesita aprender los siguientes lenguajes de programación.

  • Aprende Python:

Python se considera el lenguaje de programación más fácil del mundo debido a su sintaxis simple. Puedes aprender Python rápidamente.

Aprenda Python aquí: Tutoriales de Python: Temporada 1 (No necesita ser Python Ninja, solo se necesita información básica).

  • Aprende Java:

Si está buscando “Trabajo de desarrollador de Big Data”, le sugiero que aprenda Java. Hadoop está escrito en Java, por lo que el conocimiento de los conceptos básicos de Java es esencial para aprender Hadoop.

Aquí están los mejores recursos disponibles en Internet para preparar JAVA: Tutoriales para desarrolladores de Java y capacitación en línea

El MIT también ofrece un curso de código abierto sobre Java. Aquí está el enlace: Introducción a la programación en Java

[Nota: cualquier lenguaje OOP es obligatorio para aprender Big Data]

3] Estructura de datos y algoritmos:

¡Si! Debes tener las habilidades de DS y Algoritmo. Puede tomar el curso MIT para dominarlos: Introducción a los algoritmos

Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.

4] Habilidades analíticas:

El pensamiento analítico te hará PRO en Big Data. Te sugiero que trates de resolver acertijos de internet o comiences a jugar al ajedrez. Hacer estas cosas ampliará su pensamiento analítico.

5] Habilidades de base de datos:

Como vas a jugar con muchos datos, mi recomendación es aprender SQL. Puede aprender SQL aquí: SQLZOO o del canal de youtube de “Manish Sharma”: tutoriales de SQL para principiantes / tutoriales de Oracle Database.

6] Matemáticas:

Si su experiencia matemática depende del cálculo multivariable y el álgebra lineal, tendrá suficiente experiencia para comprender casi todas las probabilidades / estadísticas / aprendizaje automático para el trabajo.

  • Cálculo multivariable: aquí puedes aprender cálculo multivariable. Por favor visite este enlace: Cálculo multivariable
  • Álgebra lineal numérica / Álgebra lineal computacional / Álgebra matricial: Álgebra lineal
  • Aprendamos Estadística y Probabilidad: La probabilidad también se llama la ciencia de la incertidumbre y ese concepto es más importante en el campo de la DS. Puedes aprenderlo de los cursos del MIT. Aquí está el enlace de youtube: youtube.comProbability and Statistics MIT
  • Aquí hay otra serie importante del MIT: Matemáticas para la informática

7] Aprendizaje automático:

Otro tema importante que todos deberían aprender es el “Aprendizaje automático”. Necesitas tener conocimientos de matemáticas para aprender ML. Aquí está el mejor tutorial del mundo sobre ML: Lecture Collection | Aprendizaje automático

8] PNL:

Aquí hay algunos recursos que lo ayudarán en PNL:

Libro:

Procesamiento del habla y el lenguaje (2a edición): Daniel Jurafsky, James H. Martin: 9780131873216: Amazon.com: Libros

Tutoriales web:

Inteligencia artificial Procesamiento del lenguaje natural

Aquí está la mejor referencia, Procesamiento de lenguaje natural con Python

9] Sistema operativo:

Desarrolle un sólido conocimiento del sistema operativo a partir de los siguientes recursos.

Recursos en línea: UC Berkeley Computer Science 162

10] Criptografía:

Aquí está el enlace a los maestros en criptografía: Tutorial de criptografía

11] Programación paralela:

Programación paralela y concurrente en Haskell: Técnicas para programación multinúcleo y multiproceso por Simon Marlow es un libro fantástico.

El último paso:

El procedimiento de más de 11 pasos es realmente importante si desea hacer una gran carrera en tecnologías de Big Data. Después de completar el paso anterior, me gustaría insistir en que visite el siguiente enlace y comience a aprender sobre Big Data:

Universidad de Big Data | Cursos de ciencia de datos

**** Proyecto de trabajo ****

Aquí hay otra forma de capturar lo que un proyecto de Big Data podría significar para su empresa o proyecto: estudie cómo otros han aplicado la idea.

Estos son algunos ejemplos del mundo real de Big Data en acción:

  • Las compañías de productos de consumo y las organizaciones minoristas están monitoreando las redes sociales como Facebook y Twitter para obtener una visión sin precedentes del comportamiento del cliente, las preferencias y la percepción del producto.
  • Los fabricantes están monitoreando los datos de vibraciones diminutas de sus equipos, que cambian ligeramente a medida que se desgastan, para predecir el momento óptimo para reemplazar o mantener. Reemplazarlo demasiado pronto desperdicia dinero; reemplazarlo demasiado tarde desencadena un costoso paro laboral
  • Los fabricantes también están monitoreando las redes sociales, pero con un objetivo diferente al de los vendedores: lo están utilizando para detectar problemas de soporte del mercado de accesorios antes de que una falla de la garantía se vuelva públicamente perjudicial.
  • El gobierno está haciendo públicos los datos a nivel nacional, estatal y de la ciudad para que los usuarios desarrollen nuevas aplicaciones que puedan generar bienes públicos. Conozca cómo las agencias gubernamentales reducen significativamente la barrera para implementar datos abiertos con NuCivic Data
  • Las organizaciones de servicios financieros están utilizando datos extraídos de las interacciones con los clientes para dividir y dividir a sus usuarios en segmentos finamente ajustados. Esto permite a estas instituciones financieras crear ofertas cada vez más relevantes y sofisticadas.
  • Las agencias de publicidad y marketing están rastreando las redes sociales para comprender la capacidad de respuesta a campañas, promociones y otros medios publicitarios.
  • Las compañías de seguros están utilizando el análisis de Big Data para ver qué solicitudes de seguro de hogar pueden procesarse de inmediato y cuáles necesitan una visita en persona validada por un agente.
  • Al adoptar las redes sociales, las organizaciones minoristas involucran a defensores de la marca, cambian la percepción de los antagonistas de la marca e incluso permiten que los clientes entusiastas vendan sus productos.
  • Los hospitales están analizando datos médicos y registros de pacientes para predecir aquellos pacientes que probablemente busquen readmisión dentro de unos meses después del alta. El hospital puede intervenir con la esperanza de evitar otra costosa estadía en el hospital.
  • Las empresas basadas en la web están desarrollando productos de información que combinan datos recopilados de los clientes para ofrecer recomendaciones más atractivas y programas de cupones más exitosos.
  • Los equipos deportivos están utilizando datos para rastrear la venta de boletos e incluso para rastrear estrategias de equipo.

Consejo: Seguir los 11 pasos e implementar uno de los proyectos mencionados y poner su currículum significa mucho para el reclutador.

Nota para el desarrollador de Java: el desarrollador de Java puede omitir los pasos relacionados con el aprendizaje de Java, ya que ya están trabajando en el mismo campo.

Gran gran suerte para su carrera de Big Data.

[Nota: si necesita ayuda, no dude en enviarme un mensaje.]

Referencias

La respuesta de Akash Dugam a ¿Dónde debería comenzar para aprender el desarrollo de big data?

La respuesta de Akash Dugam a ¿Cuál es la diferencia entre analista de datos y analista de negocios?

La respuesta de Akash Dugam a ¿Hay algún sitio web donde podamos aprender ciencia de datos de forma gratuita?

La respuesta de Akash Dugam a ¿Qué hace que Python sea tan rápido para el análisis de datos a gran escala en comparación con R o SAS?

La respuesta de Akash Dugam a ¿Cuáles son las habilidades necesarias para convertirse en probador de big data?

La respuesta de Akash Dugam a ¿Es útil para un científico de datos saber acerca de los sistemas operativos?

Big Data es un término para conjuntos de datos que son grandes o complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Todos los días creamos una enorme cantidad de 2.5 Quintillones de Bytes de Datos y para agregarle el 90% de los datos del mundo se generan en los últimos dos años. Estos datos provienen de muchas industrias, como la información meteorológica recopilada por sensores, grandes patrones de datos de sitios de redes sociales, imágenes, videos, informes de atención médica y muchos más. Esta gran cantidad de datos se llama Big Data.

Hadoop es una herramienta de código abierto de Apache Software Foundation. Está diseñado para procesar eficientemente grandes volúmenes de datos. El proyecto de código abierto significa que está disponible gratuitamente e incluso se puede cambiar su código fuente.

Una guía completa de Hadoop

Prueba de Hadoop de Big Data en línea

Big Data Flashcards

Carreras y roles laborales en Big Data

Aplicaciones de Big Data en varios dominios

Arquitectura Hadoop

Hadoop trabaja en la moda maestro – esclavo. Hay un nodo maestro y hay n números de nodos esclavos donde n puede ser 1000. Master gestiona, mantiene y supervisa a los esclavos, mientras que los esclavos son los nodos de los trabajadores reales. Master debe implementarse en un hardware de buena configuración y no en cualquier hardware básico, ya que es la pieza central del clúster Hadoop.

Master solo almacena los metadatos (datos sobre datos) mientras que los esclavos son los nodos que almacenan los datos. Los datos se almacenan distribuidos en el clúster. El cliente se conecta con el nodo maestro para realizar cualquier tarea.

Los mejores libros para aprender Big Data y Hadoop

Certificación de Big Data orientada a la industria

Componentes del ecosistema Hadoop

a. Sistema de archivos distribuidos de Hadoop

HDFS es el sistema de almacenamiento primario de Hadoop. El sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable, con tolerancia a fallas, confiable y rentable para grandes datos. HDFS es un sistema de archivos distribuido que se ejecuta en hardware básico. HDFS ya está configurado con la configuración predeterminada para muchas instalaciones. La mayoría de las veces se necesita una configuración de clústeres grandes. Hadoop interactúa directamente con HDFS mediante comandos tipo shell.

Componentes de HDFS:

yo. NameNode

También se conoce como nodo maestro. NameNode no almacena datos o conjuntos de datos reales. NameNode almacena metadatos, es decir, el número de bloques, su ubicación, en qué Rack, qué Datanode se almacenan los datos y otros detalles. Se compone de archivos y directorios.

Tareas de NameNode

  • Gestionar el espacio de nombres del sistema de archivos.
  • Regula el acceso del cliente a los archivos.
  • Ejecuta la ejecución del sistema de archivos, como nombrar, cerrar, abrir archivos y directorios.

Lea la guía completa de los componentes del ecosistema de Hadoop y sus roles

Para conocer la Infraestructura y Tecnología de Big Data, sugeriría comenzar leyendo estos dos documentos. Por favor, no deje de leer estos documentos.

1. MapReduce: procesamiento de datos simplificado en grandes grupos https://www.usenix.org/legacy/pu

2. El sistema de archivos de Google: http: //static.googleusercontent

Hadoop map-reduce se modela después de Google Map-reduce (documento 1 arriba) y Hadoop Distributed File System (HDFS) se modela después de Google File System (papel 2 arriba). Entonces, después de leer estos dos documentos, debe comprender el mecanismo general detrás de Hadoop.

Una vez que haya terminado esto, comience a estudiar Hadoop en general utilizando http://hadoop.apache.org/ y su sección de documentos: http://hadoop.apache.org/docs/cu… .

Si quiere saber más sobre HDFS architechture, lea: http://archive.cloudera.com/cdh/

A continuación, es hora de algo práctico.

Vaya a Ejecutar Hadoop en Ubuntu Linux (Clúster de un solo nodo) – Michael G. Noll para configurar un clúster de Hadoop de un solo nodo y ejecutar el trabajo de conteo de palabras de ejemplo y verificar la salida.

Luego vaya a Ejecutar Hadoop en Ubuntu Linux (Clúster de nodos múltiples) – Michael G. Noll para configurar un clúster de nodos múltiples y ejecutar el trabajo de conteo de palabras de ejemplo.

Luego vea el código fuente de conteo de palabras en WordCount – Hadoop Wiki e intente entenderlo.

Ahora debe tener confianza en el funcionamiento general de Hadoop y las fuerzas impulsoras en Big-Data. ¿Ahora tiene que elegir en qué subcampo desea trabajar? Análisis de Big-Data (escritura de trabajos de reducción de mapas y códigos de cerdo / colmena más algo de aprendizaje automático) o infraestructura de Big-Data (sistema de archivos Hadoop, infraestructura de reducción de mapas, etc.). En base a eso, puede continuar explorando esta área.

Editar: Agregar una sección para los ingenieros de front-end
Si eres más un chico de front-end, te sugiero que estudies MongoDBand Hive. Luego lea un poco sobre HBase. Para la práctica, configure un servidor MongoDB o Hive, cargue un conjunto de datos razonablemente grande (~ 500 GB más o menos) y luego escriba un front-end. Vea si es lo suficientemente sensible. Es posible que también desee leer en AVRO ( http://avro.apache.org/ ). Avro es el sistema de intercambio de datos más utilizado entre el front-end y el back-end de big data store como HBASE.

Aunque Hadoop se usa tradicionalmente para el procesamiento por lotes de fondo (limpieza, filtrado, análisis, etc.), esto va a cambiar pronto. La gente ya ha comenzado a usarlo como su almacén de datos principal (reemplazando los motores RDBMS como MySQL). También hay mucha literatura sobre procesamiento de big data en tiempo real y alternativas a Hadoop.

¡La mejor de las suertes!

Respetando DRY (no se repita), aquí hay algunas de las preguntas y respuestas de quora que tratan los temas que desea aprender:
1. Estas preguntas y respuestas apuntan a documentos realmente buenos y algunos enlaces al marco de reducción de mapas Hadoop, que se utiliza para procesar grandes datos en un clúster de máquinas y una solución NoSQL Cassandra.
¿Cuál es la mejor manera de aprender Hadoop y Cassandra para empezar?

Además, este video es bastante útil:

Una vez que haya terminado de ver el video anterior, lea todos los documentos anteriores y algunos de los prefacios de los libros y las introducciones señaladas en las preguntas y respuestas anteriores, comience a ejecutar ejemplos simples como el conteo de palabras con el vm ofrecido por Cloudera. Internalice los detalles más finos de este ejemplo simple pero lo suficientemente potente como para explicar cómo se podría distribuir un problema simple como el conteo de palabras.

Una vez que haya terminado con esto, puede probar varios ejemplos, escribir sus trabajos personalizados, etc. Una vez que se realiza esta fase y su comprensión del marco es sólida, puede seguir aprendiendo otras herramientas en este ecosistema y dominarlas.

Luego, continúe y escuche varios casos de uso exhibidos por varios presentadores en Hadoop World, HBaseCon, puede buscarlos en YouTube.

2. ¿Cuál es la mejor manera de aprender a procesar y analizar big data?

3. Big Data: ¿Cómo aprendo sobre Big Data?

NoSQL:
Comprender el teorema de CAP. Deshágase de algunas nociones difíciles que haya aprendido en RDBMS.

Aprenda bien una tecnología noSQL. Comenzar a jugar con mongo (Instalar MongoDB en OS X) o Cassandra (The Apache Cassandra Project) es bastante fácil. Escriba algunas consultas en su contra y aprenda las limitaciones, pero al mismo tiempo disfrute de las poderosas cosas que puede hacer.

Otro libro para una lectura rápida de varias bases de datos modernas noSQL y que le brinda suficiente información para comenzar: Siete bases de datos en siete semanas: una guía para bases de datos modernas y el movimiento NoSQL: Eric Redmond, Jim R. Wilson: 9781934356920: Amazon.com: Libros

Luego, adelante, codifique más utilizando varias API de cliente para interactuar con las bases de datos.

Pase el rato en los IRC y escuche varios casos de uso.

Espero que esto ayude.

¿A dónde va Big Data?

Comprender ‘qué es Big Data’ implica comprender menos el pasado y más sobre comprender hacia dónde se dirige Big Data en el futuro (un objetivo móvil). Sin embargo, predecir el futuro de Big Data es difícil. Rod Smith (vicepresidente de IBM Emerging Internet Technologies) está mejor ubicado que muchos otros para pronosticar lo que significa el futuro desconocido para Big Data. Esto es lo que tiene que decir al respecto.

Big Data 2.0

Big data y análisis continuarán siendo una fuerza comercial disruptiva. Según Rod, ahora estamos entrando en otra fase: una transformación comercial digital en tiempo real, donde las empresas se están dando cuenta de que el tiempo para adaptarse a los mercados, las oportunidades y las amenazas de los clientes se está reduciendo rápidamente. Por lo tanto, aprovechar los datos históricos y de transmisión con análisis “justo a tiempo” en el momento de las decisiones comerciales está en el horizonte. Además, en el futuro cercano, el aprendizaje automático desempeñará un papel importante en la automatización de muchas acciones y procesos comerciales. Todo esto está impulsando grandes avances de innovación en la industria y dentro de las comunidades de código abierto.

Nuevos imperativos comerciales y tecnologías

Rod describe 15 imperativos empresariales y tecnologías que supervisará en los próximos años, lo que puede permitir a las empresas conocer las fuerzas empresariales disruptivas:

  1. Creación de nuevos modelos de negocio en tiempo real.
  2. Mejora de la toma de decisiones conscientes del riesgo.
  3. Lucha contra el fraude y contra las amenazas.
  4. Optimizando operaciones.
  5. Atracción, crecimiento y retención de clientes.
  6. Desarrollando análisis justo a tiempo.
  7. Satisfacer las prioridades cambiantes del cliente / negocio.
  8. Mejora de la interactividad a las solicitudes de soluciones directas.
  9. Implementación de tableros en tiempo real.
  10. Mastering Machine Learning (ML).
  11. Permitir que varias líneas comerciales accedan a los mismos datos de fondo.
  12. Desarrollando más interactividad del lado del cliente.
  13. Implementando el lanzamiento de productos magros en días … no semanas.
  14. Procesos de sensibilización a contextos.
  15. Implementación de código abierto.

¡Las empresas que deseen prepararse para el impacto transformador de Big Data 2.0 deberán determinar qué imperativos / tecnologías tendrán un impacto significativo en sus operaciones! Los estudiantes de Big Data deberán aprender sobre los 15 imperativos / tecnologías.

“El futuro depende de lo que hagas hoy”.

~ Mahatma Gandhi

Mira a Rod describir en detalle: ¿hacia dónde va Big Data?

_________________________________________________________
El autor ha curado este video y no tiene afiliación con IBM o Rod Smith

Desde un punto de vista donde “big data” solo difiere de los datos ‘regulares’ en los aspectos de Volumen, Velocidad y Variedad (las famosas 3 V), puede colocar big data en el contexto más amplio de la ciencia de datos, una disciplina que apunta extraer conocimiento o ideas de datos (no) estructurados. Podría considerar que los grandes datos están conectados inherentemente o incluso son parte de la ciencia de datos, ya que los datos que trabajará como científico de datos o parte de un equipo de ciencia de datos pueden ser grandes datos.

Creo que, por lo tanto, también debería ver el aprendizaje de big data en el contexto más amplio del aprendizaje de la ciencia de datos. Echa un vistazo a los ocho pasos que se mencionan en esta infografía: Learn Data Science – Infographic. Lo que debe aprender es lo siguiente:

  • Debe comprender cómo difiere el big data de los datos normales,
  • Captar el enfoque distribuido del almacenamiento y procesamiento de datos, y
  • Comprenda la ventaja del marco informático de clúster en memoria.

Mi explicación puede parecer abstracta hasta ahora, pero era necesaria para explicar los pasos que seguí cuando ingresé a la ciencia de datos:

  • Paso 1. Asegúrese de que puede programar en Python o Scala

Para Python, podría considerar los siguientes cursos: Aprenda Python para Data Science: curso en línea e Introducción a Python para Data Science, donde aprenderá el Python que necesita para comenzar con la ciencia de datos. Por supuesto, hay muchos otros materiales, pero al final, mencioné estos recursos porque debe intentar obtener la introducción más práctica y práctica de Python que pueda obtener.

Para Scala, hice uso de “Programación en Scala” de Odersky. Este libro ofrece una introducción completa, con muchos ejemplos para comenzar. No he encontrado ningún curso de Scala que ofrezca un enfoque muy práctico, por lo que solo mencionaré el libro aquí. Además, si considera el siguiente párrafo, también comprenderá por qué un enfoque práctico para aprender Scala es menos relevante al principio.

¿Qué elegir? Piensa en los lenguajes de programación que ya conoces. Si tiene experiencia en programación con Java, solo elija Scala. Esto debería ser obvio porque Spark simplemente funciona mejor con Scala y no es demasiado difícil de manejar si ya estás en ese nivel. Si recién estás comenzando, elige Python, pero considera mudarte a Scala a largo plazo.

  • Paso 2. Conozca Spark

Considere seguir la Introducción a Apache Spark y los cursos de seguimiento. También eche un vistazo a los tutoriales, documentación, cursos y recursos de Apache Spark, todo en un solo lugar | SparkHub y Learn Spark. Cuando revise estos ejemplos, intente obtener la mayor cantidad de información posible. ¡Esto te ayudará a largo plazo!

  • Paso 3. Echa un vistazo a Hadoop Framework

Obtener una descripción completa del marco Hadoop no es un lujo excesivo. Use Hadoop: la guía definitiva para una introducción muy detallada. Para aprender realmente cómo trabajar, por ejemplo, con la pila de Cloudera, puede descargar Descargas de Cloudera Enterprise.

  • Paso 4. Conozca / revise la gestión de datos

Un componente que muchas personas olvidan cuando trabajan con Big Data es el hecho de que los datos en sí traen a la mesa problemas específicos de los que generalmente no tiene que preocuparse cuando trabaja con archivos de texto simples.

Considere seriamente leer sobre lo que significa implementar la calidad de los datos y la administración de datos maestros, y si no tiene una base de conocimiento en almacenamiento de datos y BI, póngalo incluso antes de comenzar con la calidad de los datos y la administración de datos maestros. Más tarde, también debe considerar la arquitectura de datos y la seguridad de los datos.

  • Paso 5. ¡Practica!

Al principio, vea algunos ejemplos, como snowplow / spark-example-project y databricks / learning-spark.

Luego, encuentre un problema de big data y comience a trabajar en eso. Siga todos los pasos que seguiría con el flujo de trabajo de ciencia de datos: importe los datos, explore, discuta, modele, valide y visualice. Puede usar los pasos que ya ha realizado anteriormente para pasar por la mayoría de las fases, pero no olvide comenzar también con el software de visualización como Tableau o utilizar la biblioteca de visualización Bokeh.

  • Paso 6. Considere seguir un entrenamiento (opcional)

Si realmente lo desea, también puede seguir una capacitación corporativa o privada de Cloudera o Databricks Training.

Antes de comenzar a aprender algo, primero comprenda por qué quiere aprenderlo.

Luego, después de eso, aprenda los conceptos básicos de esa tecnología.

Si desea aprender Big Data, primero entienda qué es Big Data, por qué Big Data, etc.

  • ¿Qué es el Big Data?

Big data es un gran volumen, velocidad rápida y diferentes activos de información de variedad que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones.

  • ¿Por qué Big Data?

Big Data es una forma de resolver todos los problemas no resueltos relacionados con el manejo y manejo de datos, una industria anterior se usaba para vivir con tales problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la vista de 360 ​​grados de los clientes y comprender mejor sus necesidades.

Para obtener respuestas más detalladas, consulte el siguiente enlace:

Por qué debería aprender Big Data – Introducción a Big Data – DataFlair

Puede consultar los enlaces a continuación para los mejores libros de Big Data Hadoop:

Mejores libros para aprender Big Data Hadoop – DataFlair

Después de aprender los conceptos básicos de Big Data, siga adelante con Hadoop.

  • ¿Qué es el Hadoop?

Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. El proyecto de código abierto significa que está disponible gratuitamente e incluso su código fuente se puede cambiar según los requisitos. Si cierta funcionalidad no cumple con sus requisitos, puede cambiarla según sus necesidades. La mayor parte del código de Hadoop está escrito por Yahoo, IBM, Facebook, Cloudera.

Para obtener una respuesta detallada, consulte el siguiente enlace:

Tutorial de Hadoop – Una guía de introducción de Hadoop – DataFlair

  • ¿Por qué Hadoop?

Ahora comprendamos por qué Hadoop es tan popular, por qué Hadoop ha capturado más del 90% del mercado de big data.

Hadoop no es solo un sistema de almacenamiento, sino también una plataforma para el almacenamiento y el procesamiento de datos. Es escalable (se pueden agregar más nodos sobre la marcha), tolerante a fallas (incluso si los nodos caen, los datos pueden ser procesados ​​por otro nodo) y de código abierto (puede modificar el código fuente si es necesario).

Después de aprender Hadoop, avance hacia MapReduce y HDFS

Tutorial Hadoop HDFS – Introducción, arquitectura, características y operaciones de HDFS – DataFlair- para HDFS

Tutorial de Hadoop MapReduce – Una guía completa – DataFlair- para MapReduce

Te diré cómo comencé a aprender Big Data inicialmente. Pero antes de eso, déjame decirte que cuando dices datos grandes significa una variedad de tecnologías como Hadoop, Hive, Hbase, Mongodb, Voltdb, Voldemort, couchDB, Cassandra, RedShift, SAP HANA, Neo4j y la lista continúa. Debe seleccionar algunas de las tecnologías que desea aprender.

Según el caso de uso, estos se pueden dividir en categorías como almacén de valores clave, bases de datos de gráficos, almacén de columnas, etc. También hay otra división de software de código abierto y propietario. Hadoop es de código abierto, mientras que SAP HANA es propietario. Le recomendaría que opte por tecnologías de código abierto debido a varias ventajas, como un mejor soporte de la Comunidad, fácil disponibilidad, uso gratuito, desarrollo y contribución. ¡Esto reduciría la lista a tecnologías como hadoop, hive, hbase, etc., que actualmente son las tecnologías de big data más utilizadas!

Cómo comencé: hace más de 3 años, cuando la mayor parte de mi trabajo estaba en Java y Linux, me dieron 2-3 semanas para explorar hadoop para un nuevo proyecto (UIDAI). Inmediatamente descargué sus binarios del sitio web de Apache y comencé a seguir las instrucciones para configurar un clúster de nodo único que está disponible fácilmente después de una búsqueda en Google. Mientras configuraba el clúster, solo aprendí muchas cosas sobre hadoop, sus procesos de trabajo y varios otros módulos en él. Me tomó alrededor de una semana configurar y comprender un clúster de nodo único por primera vez y otra semana para expandirlo a 3 sistemas más que pertenecen a mis pares en la oficina en la misma red. En unos 15 días tuve una idea sobre los procesos básicos y su configuración. Luego leí su API de Java y ejecuté algunos programas de muestra para el acceso al sistema de archivos y los programas MapReduce. Todo esto lo hice sin ningún libro electrónico o las instrucciones de alguien simplemente haciendo búsquedas simples en Google y siguiendo varios artículos en Internet. Lo bueno es que siempre puede verificar lo que haya aprendido al buscar sus consultas y comparar 2-3 artículos de diferentes sitios web para estar seguro de cualquier proceso o concepto.

Siempre es bueno seguir un libro electrónico para aprender en un orden sistemático, pero de alguna manera este no fue mi caso. Primero hice la práctica y luego salté a la parte de teoría y parece que fue más eficaz y eficiente para mí.

¡Confía en mí, encontrarás la mayoría de las soluciones que deseas mientras aprendes en una búsqueda web simple! 🙂

Solo quiero dar los hechos primero.

Big Data no es una tecnología única que se pueda aprender en un mes. Big Data es un grupo de muchas tecnologías y herramientas que se utilizan en diversos escenarios.

Ciertos requisitos previos para perseguir a este gigante son:

1) Sistema operativo Unix / Linux y scripts de shell:

Las buenas prácticas en scripting de shell te facilitan la vida en Big Data. Muchas herramientas obtuvieron la interfaz de línea de comandos donde los comandos se basan en las secuencias de comandos de shell y los comandos de Unix.

2) Core Java:

Como Hadoop (un marco para jugar con Big Data), una API de Java, la habilidad de programación en Core Java nos permite aprender modelos de programación como MapReduce

Las secuencias de comandos C ++, Python, Shell también pueden hacer el procesamiento de Big Data. Java es bastante directo y no es necesario hacerlo con la ayuda de terceros.

3) SQL (lenguaje de consulta estructurado):

SQL, conocido popularmente como ‘secuela’, hace que Hive (un lenguaje de consulta para Big Data) sea más fácil. Jugar con SQL en bases de datos relacionales nos ayuda a comprender el proceso de consulta de grandes conjuntos de datos

Después de los prerrequisitos, decidimos qué hacer con Big Data. Las herramientas y tecnologías con respecto al área de interés son las siguientes:

Digamos que está trabajando con el marco ‘Hadoop’:

-> Modelado y desarrollo de Hadoop: MapReduce, Pig, Mahout
-> Almacenamiento de Hadoop y gestión de datos: HDFS, HBase, Cassandra
-> Almacenamiento de datos Hadoop, resumen y consulta: Hive, Sqoop
-> Recopilación, agregación y análisis de datos Hadoop: Chukwa, Flume
-> Gestión de metadatos, tablas y esquemas de Hadoop: HCatalog
-> Gestión de clúster Hadoop, programación de trabajos y flujo de trabajo: ZooKeeper, Oozie y Ambari
-> serialización de datos Hadoop: Avro

Puede ser una tarea múltiple al aprender más de uno de los mencionados anteriormente. Bueno, es una cuestión de elección e interés.

El siguiente diagrama puede dar una mejor comprensión:


PD: 1) Actualmente soy un estudiante que persigue algunos de los atributos mencionados anteriormente.
2) Mis disculpas por la duración de esta respuesta, pero vale la pena tener una buena conciencia sobre el arsenal de Big Data
3) Hay muchos marcos que ofrecen soluciones para jugar con Big Data. Elegí Hadoop para explicar.
4) ¡Big Data es enorme! Tienes que descubrir qué quieres hacer con precisión

Puede aprender Hadoop usted mismo al tomar cualquier curso de autoaprendizaje en línea que esté disponible en varios sitios web para que no tenga que asistir a las clases en un momento específico todos los días y aprender los conceptos a su propio ritmo según su tiempo y disponibilidad.

Algunas de las cosas que pueden ser necesarias antes de comenzar el proceso de aprendizaje de Hadoop.

  • Conocimientos básicos de programación Java y conceptos de programación orientada a objetos. Hadoop es realmente desarrollado por Apache y está basado en la plataforma Java. Por lo tanto, tener cierto conocimiento en Java definitivamente ayudaría a comprender los conceptos de Hadoop y también a seguir las funcionalidades y terminologías asociadas con la programación de Hadoop.
  • También puede aprender algunos comandos básicos disponibles con SQL, ya que Hadoop se ocupa principalmente de la gran cantidad de datos llamada Big Data y, por lo tanto, tener algunos conocimientos de SQL ayudaría en el procesamiento y la manipulación de los grandes datos y realizar las actualizaciones o modificaciones necesarias cuando sea necesario .
  • El método preferido para instalar y administrar clústeres de Hadoop es a través de los parámetros de línea de comandos del shell de Linux. Entonces, para los profesionales que exploran oportunidades en Hadoop, se requiere un conocimiento básico sobre Linux para configurar Hadoop
  • Entonces, después de obtener algunos conocimientos sobre estas habilidades básicas, puede comenzar a prepararse para la certificación Hadoop que ofrecen varios institutos como Hortonworks, Cloudera, MapR, etc.

La capacitación en línea basada en el autoaprendizaje es mucho más barata y las personas podrían trabajar en su tiempo libre y comprender la idea y el conocimiento necesarios si presentan sus mejores esfuerzos y un trabajo sincero y duro en la preparación para el examen.

Debe pasar al menos 2 a 3 horas diarias para revisar los materiales de estudio y comprender los conceptos relacionados con Big Data y cómo Hadoop lo maneja y también por qué Hadoop es la mejor manera de seguirlo para manejar Big Data .

Podemos hacer la capacitación en línea en nuestro tiempo libre y poder seguir los materiales de estudio como se sugiere y también tomar los exámenes simulados que ayudarían a dar una idea sobre qué tipo de preguntas se formularían en el examen de certificación real.

Existen varias instituciones que ofrecen cursos de autoaprendizaje en línea para el examen de certificación de Hadoop. Uno de esos sitios web que proporciona los cursos de certificación en línea de autoaprendizaje es el sitio web de Whizlabs y he proporcionado los otros enlaces relacionados a continuación.

Más información sobre el examen de certificación Hadoop

Aquí le proporciono información útil para aprender el examen de certificación de Hadoop.

  • Certificación HDPCA en Hortonworks
  • Certificación de administrador certificado HDP (HDPCA)
  • ¿Qué es Apache Hadoop?
  • ¿Cómo se relacionan Big Data y Hadoop?

¡¡Espero que esto ayude!!

Si está buscando ayuda para prepararse para los exámenes de certificación de Hadoop, envíeme un mensaje.

En mi humilde opinión, realmente depende de qué tipo de carrera estaría adoptando.

De las discusiones que tengo todo el tiempo con nuestros socios industriales y asesores científicos en Data ScienceTech Institute, las organizaciones necesitan seis sabores de expertos en Big Data.

El “analista de datos (grande)” está más al final de la cadena y colabora con los científicos de datos en aspectos técnicos y matemáticos. Ella / Él se enfoca en la exploración de datos gracias al conocimiento del negocio, para extraer valiosos “KPI”. Ella / Él tiene mucho talento para explicar resultados complejos a los tomadores de decisiones, gracias a la práctica avanzada en visualización de datos.

El “Consultor de datos” es el intermediario (¡en el buen sentido!), Que interactúa con todas las partes interesadas de la cadena de valor de datos (desde el Arquitecto de Big Data hasta el CDO y / o CTO). Ella / Él ayuda a las organizaciones a definir, estructurar e implementar su estrategia de datos. Su comprensión global de las herramientas y técnicas disponibles en el mercado, la creatividad y la sensibilidad a los objetivos impulsados ​​por los negocios le permiten proponer soluciones innovadoras.

El “Director de datos” es un ejecutivo experimentado, a cargo del gobierno de datos de la organización y la creación de valor. Ella / Él representará las estrategias de datos de las organizaciones para servir a los otros ejecutivos y al Consejo con “pepitas de oro” significativas de conocimiento para la toma de decisiones a nivel corporativo.

Estos tres perfiles necesitan capacitación similar a nuestro programa Master Master Analista Ejecutivo de Big Data 😉

***

El “Big Data Architect” es un experto en TI avanzada que permite el almacenamiento, la manipulación y la restitución de estos “Big Data”. Ella / Él diseña, implementa y administra plataformas de datos o incluso centros de datos, localmente, en la nube o en modo híbrido, utilizando plataformas como Amazon AWS. Ella / Él está en el comienzo de la cadena de valor de datos, y uno de los pilares de cualquier proyecto de Big Data.

El “Data Scientist” participa en el corazón de las operaciones científicas. Ella / Él tiene habilidades técnicas y matemáticas muy avanzadas y puede aprovechar las herramientas empresariales (SAS, SPSS, etc.), así como el análisis, el diseño y la implementación de sus propios algoritmos en varios lenguajes de programación para transformar datos en información y luego en conocimiento útil, siempre impulsado por los negocios.

El “Director de Tecnología” es un ejecutivo experimentado, a cargo de herramientas, técnicas, métodos y soluciones para toda la organización. Ella / Él dirige su análisis y diseño y está a cargo de sus evoluciones a nivel corporativo.

Estos tres perfiles necesitan capacitación similar a nuestro programa maestro de diseño de MSc Data Scientist Designer 😉

¡Espero que esto ayude!

Hola Sayantan Naha

¡Comencemos bien! Es un campo vasto y abrumador. Aprender Big Data es muy simple cuando tienes metas y expectativas claras definidas. La gran cantidad de conceptos, tecnologías y lenguajes de programación pueden desmotivarte si te faltan hitos claros. Para tener éxito, debe definir su objetivo antes de comenzar su viaje de aprendizaje. La definición de un objetivo solo es posible cuando usted lo sabe. Entonces, comprendamos las funciones de 3 teclas mientras trabajamos con big data:

Recopilación de datos e integración de datos : cubre todas las acciones necesarias para adquirir, almacenar y hacer que los datos estén disponibles en un formato legible para los consumidores de datos.

Análisis y exploración de datos : aquí es donde aprende de los datos y obtiene información útil.

Visualización de datos : el último pero no menos importante, cubre todas las acciones para transformar datos abstractos en datos visuales.

Ahora puede estructurar su camino de aprendizaje en torno a las competencias básicas necesarias para abordar cada paso. Dependiendo de su objetivo, es posible que desee centrarse en un paso dado u obtener una comprensión general de cada paso.

Si desea tener una comprensión general de estos temas sin profundizar en los detalles, puede comenzar con cursos en línea gratuitos. Internet está inundado de ellos. Si busca profundizar en cualquiera de las competencias básicas, seguramente necesitará más de unas pocas horas de curso en línea gratuito. Mi consejo es inscribirse en algún programa de certificación. Por lo general, estos son programas pagos y lo mantienen comprometido y enfocado en su objetivo, ya que no desea desperdiciar su dinero. Además, puede agregar la certificación a su currículum o al perfil de LinkedIn para resaltar su logro.

Revisa estos artículos. Le ayudarán a racionalizar lo que aspira en este vasto campo.

Cómo convertirse en un desarrollador de Big Data

¿Qué es un científico de datos? Un papel clave en el análisis de datos y una carrera lucrativa

¿Cuáles son las mejores certificaciones de Big Data?)

Una vez que tenga claro el objetivo, puede comenzar a perseguirlo. Suponiendo que posee las habilidades básicas de TI, debe aprender Python (muy fácil, se puede aprender rápidamente), Java (para el trabajo de desarrollador), estructura de datos y algoritmos , habilidades de base de datos (SQL, NoSQL, MongoDB, Cassandra) , lenguaje de máquina, PNL, además, necesita poseer o desarrollar buenas habilidades analíticas y estadísticas.

Lo más importante es que debe recibir capacitación práctica y mucha práctica.

¡Feliz aprendizaje!

Experfy es un mercado de consultoría y capacitación en ciencia de datos basado en Harvard. Aquí hay un curso sobre Big Data Analyst impartido por Sumit Pal (exdirector de Arquitectura de Big Data en Verizon y autor de SQL en Big Data : esta capacitación en Big Data le brinda a uno los antecedentes necesarios para comenzar a trabajar como analista en Big Data. Cubre: áreas como conceptos básicos de Big Data, conceptos básicos de Hadoop y herramientas como Hive y Pig, que le permite a uno cargar grandes conjuntos de datos en Hadoop y comenzar a jugar con consultas de SQL Like sobre él utilizando Hive y hacer análisis y el trabajo de Data Wrangling con Pig. el curso en línea también enseña Conceptos básicos de aprendizaje automático y ciencia de datos usando R y también cubre Mahout brevemente: una recomendación, motor de agrupamiento en conjuntos de datos grandes.El curso incluye ejercicios prácticos con Hadoop, Hive, Pig y R con algunos ejemplos de cómo usar R para hacer trabajo de Machine Learning y Data Science

También hay un curso sobre capacitación para desarrolladores de Hadoop

Aprenda los fundamentos de cómo producir aplicaciones de resistencia industrial utilizando el ecosistema Hadoop. Además de lo básico, presentamos temas avanzados como hashing inteligente, detección de sesgo de partición, simulación Monte Carlo, poda de partición y predicados de inserción. Los estándares emergentes de la industria en formatos de datos, mensajes y procesamiento de flujo proporcionan orientación a los estudiantes sobre futuros estudios.

Big data es en realidad una palabra de moda e incluye muchos temas matemáticos y de computación. Aquí hay un pequeño desglose de lo que puede esperar y las fuentes. Tengo un sesgo hacia Python, que se ha convertido en el lenguaje de elección para la mayoría de las aplicaciones de Big Data.

Ciencias de la Computación:
Aprendizaje automático : existen bibliotecas que pueden ayudarlo a implementar los algoritmos principales. La clave es scikit-learn (scikit-learn: aprendizaje automático en Python). Es realmente un buen lugar para comenzar a procesar datos. Está escrito en Python.

Procesamiento de lenguaje natural : Python tiene una implementación bastante ordenada de NLP llamada NLTK (Natural Language Toolkit).

Paradigma de programación:
MapReduce : es un paradigma de programación que paraleliza cualquier tarea computacional. Puede consultar el Google Paper original (página en Usenix).
MapReduce está esencialmente en el corazón de Big Data. Puede implementar Hadoop MapReduce. Sin embargo, si recién está comenzando, es posible que desee implementar MinceMeat, una implementación ligera y simple de MapReduce en Python.

Bases de datos:
Existen muchas bases de datos no sql que se pueden usar como MongoDB, HBase.

Una aplicación BigData simple no será muy difícil de implementar, para los piratas informáticos. Echa un vistazo a cómo este pirata informático de marketing implementó la Regresión logística para encontrar enlaces de spam: (Aprendizaje automático y Enlace de spam: Mi pincel con locura)

También hay muchos cursos sobre Coursera y Advance Your Education con cursos universitarios gratuitos en línea para estudiar Big Data e Inteligencia Artificial.

Todo lo mejor.

El análisis de Big Data le permite personalizar el contenido o la apariencia de su sitio web en tiempo real para adaptarse a cada consumidor que ingresa a su sitio web, dependiendo, por ejemplo, de su sexo, nacionalidad o de dónde terminaron en su sitio. El ejemplo más conocido probablemente sea el de ofrecer recomendaciones personalizadas: el uso de Amazon de filtros colaborativos (IBCF) basados ​​en artículos en tiempo real para alimentar sus funciones de “Comprado frecuentemente juntos” y “Clientes que compraron este artículo también compraron” funciones o Cursos de Big Data en Intellipaat LinkedIn sugiriendo “Personas que quizás conozcas” o “Compañías que quizás quieras seguir”. Y el enfoque funciona: Amazon genera aproximadamente un 20% más de ingresos a través de este método.

Big Data también puede ayudarlo a comprender cómo otros perciben sus productos para que pueda adaptarlos, o su comercialización, si es necesario. El análisis del texto no estructurado de las redes sociales le permite descubrir los sentimientos de sus clientes e incluso segmentarlos en diferentes ubicaciones geográficas o entre diferentes grupos demográficos.

Además de eso, Big Data le permite probar miles de variaciones diferentes de diseños asistidos por computadora en un abrir y cerrar de ojos para que pueda verificar cómo pequeños cambios en, por ejemplo, el material afectan los costos, los plazos de entrega y el rendimiento. Luego puede aumentar la eficiencia del proceso de producción en consecuencia.

ESCALA.

Con Big Data desea poder escalar de manera muy rápida y elástica. Cuando y donde quieras. En múltiples centros de datos y la nube si es necesario. Puede escalar hasta los cielos o fragmentos hasta que las vacas lleguen a casa con los sistemas de bases de datos relacionales de su padre y nunca lleguen allí. Y la mayoría de las soluciones No SQL como MongoDB o HBase tienen sus propias limitaciones de escala …

ACTUACIÓN.

En un mundo en línea donde los retrasos en nanosegundos pueden costarle ventas, los grandes datos deben moverse a velocidades extremadamente altas, sin importar cuánto escale o qué cargas de trabajo deba realizar su base de datos. Los aros de manejo de datos de RDBMS y la mayoría de las soluciones NoSQL ejercen una gran carga sobre el rendimiento ………

DISPONIBILIDAD CONTINUA.

Cuando confía en Big Data para alimentar sus aplicaciones comerciales esenciales que generan ingresos las 24 horas, los 7 días de la semana, incluso la alta disponibilidad no es lo suficientemente alta. Sus datos nunca pueden caer. Una cierta cantidad de tiempo de inactividad está integrado en RDBMS y otros sistemas NoSQL ………

DIVERSIDAD DE CARGA DE TRABAJO.

Big data viene en todas las formas, colores y tamaños. Los esquemas rígidos no tienen lugar aquí; en cambio, necesitas un diseño más flexible. Desea que su tecnología se ajuste a sus datos, no al revés. Y desea poder hacer más con todos esos datos: realice transacciones en tiempo real, ejecute análisis igual de rápido y encuentre todo lo que desee en un instante en los océanos de datos, sin importar lo que puedan tomar de esos datos.

SEGURIDAD DE DATOS.

Big data conlleva algunos grandes riesgos cuando contiene datos de tarjetas de crédito, información de identificación personal y otros activos sensibles. La mayoría de las plataformas de big data NoSQL tienen pocos o ningún mecanismo de seguridad para salvaguardar sus big data.

GESTIÓN

Mantenerse a la vanguardia de los grandes datos utilizando la tecnología RDBMS es un esfuerzo costoso, lento y a menudo inútil. Y la mayoría de las soluciones NoSQL están plagadas de complejidad operativa y configuraciones arcanas.

COSTO.

Cumplir incluso uno de los desafíos presentados aquí con RDBMS o incluso la mayoría de las soluciones NoSQL puede costar un centavo. Hacer big data de la manera correcta no tiene que romper el banco.

Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. Visite este enlace para aprender … Big Data El mayor valor creado por estos conocimientos oportunos y significativos de grandes conjuntos de datos es a menudo la toma de decisiones empresariales eficaces que permiten los conocimientos.

Extrapolar información valiosa de grandes cantidades de datos estructurados y no estructurados de fuentes dispares en diferentes formatos requiere la estructura adecuada y las herramientas adecuadas. Para obtener el máximo impacto comercial, este proceso también requiere una combinación precisa de personas, procesos y herramientas analíticas.

Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data.

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso continuamente, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

More Interesting

¿Cuál es la diferencia entre un científico de datos y un analista de big data?

¿Puedo aprender estructuras de datos y algoritmos sin matemáticas?

¿Cuáles son las fortalezas / debilidades de los diferentes algoritmos de aprendizaje automático?

¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?

¿Qué lenguaje de programación de tipo estático proporciona un entorno fuertemente integrado para la ciencia de datos?

¿Qué papel puede desempeñar la ciencia de datos en el análisis de existencias fundamental?

¿Con qué frecuencia se usa el paralelismo en la ciencia de datos?

¿Cuáles son algunos buenos libros que tratan sobre ciencia de datos usando Python? ¿Qué versión de python es más adecuada para ello?

¿Existe algún beneficio de saber que Java debe seguir el camino de ser un científico de datos o puede tomarse como un complemento? (Java-as Map reduce los requisitos previos: análisis de Big Data)

¿Qué se entiende por proceso de datos?

¿Cuáles son algunos de los mejores recursos / estudios de caso sobre análisis de datos / prácticas de segmentación de clientes / métricas en las startups?

¿Qué tipo de eventos de usuario deben enviarse a Kafka para sitios de comercio electrónico clásicos?

¿Cuál es la mejor capacitación en aula para la ciencia de datos en Bangalore?

¿Cuáles son algunas ideas o proyectos en Machine Learning o análisis de big data en un hackathon?

¿Cuáles son algunos campos de proyecto de big data?