¿Existe una relación entre big data, aprendizaje automático y sistemas distribuidos?

El aprendizaje automático es otro término para las estadísticas, generalmente utilizado en el contexto de las empresas de informática o tecnología. Tiene un montón de entradas, quiere algo fuera del sistema y el sistema “aprende” a producir la salida estadísticamente más deseable. El campo académico “aprendizaje automático” consta de métodos para hacer esto y reinvenciones de cosas ya descubiertas en estadística:
Modelado Estadístico vs Aprendizaje Automático

Big data es una palabra de moda que utilizan los consultores, los CTO y los CIO para ir a conferencias costosas, volar alrededor del mundo, recoger proyectos de integración multimillonarios, crear una industria completa de libros, materiales, cabeceras informadas, etc. Su significado literal, aunque nadie parece estar de acuerdo con él, es “lo que estamos usando en este momento no puede hacer frente a lo que tenemos”. En la mayoría de las empresas, ese estado es permanente debido a infraestructuras de TI disfuncionales y altamente políticas, por lo que obtener cifras de ingresos limpias es un proceso de 6 meses. Debido a que necesitaban algo “nuevo” para justificarlo, los magos de la burbuja decidieron enfocarse en las cosas que los ejecutivos más molestos no entenderían, y decidieron etiquetar “big data” con “social” y “móvil” (aprendiendo a usar el correo electrónico fue lo suficientemente difícil para muchos de ellos). Eventualmente, la Ley de Moore y la falta de dólares duros producidos de la nada se ponen al día con “Big Data“, a menos que sean los “expertos” los que se trasladan a nuevas y más prestigiosas posiciones de burbuja en otras compañías o (incluso mejor) en institutos de investigación gubernamentales. y “think tanks” o los gerentes que se jubilan o son promovidos por responsabilidad.

Los sistemas distribuidos solo significan cierto grado de arquitectura de computadora paralela o concurrente. En lugar de tener una cabeza, tienes muchas cabezas que trabajan juntas. Si su estrategia unánime para lidiar con lo que usted piensa que es “Big Data” cuando quiere hacer algo de “aprendizaje automático” es irremediablemente ineficaz porque compró una solución de terceros instalada por una empresa de subcontratación en las profundidades de los suburbios de Bangalore, usted naturalmente pensará que la única forma de resolver ese problema, en lugar de escribir un software más eficiente que pueda manejar el problema en el hardware existente, es contratar nuevos expertos y gastar aún más millones para que su intento poco eficiente y mediocre de resolver el problema pueda corre un poco más rápido (después de todo, dado que lograste su despliegue, es tu bebé y no puedes matarlo sin matar tu carrera con él). A menudo, ni siquiera es necesario que te provoquen problemas de rendimiento reales. El objetivo del gerente es gastar tanto dinero como sea humanamente posible y, según lo permita la junta directiva, tratará naturalmente de buscar la mayor cantidad de palabras de moda posible, para que pueda crear diapositivas más gigantescas, tener un mayor número de empleados y ser incluso menos responsable de lo que deberían ser plazos y objetivos muy simples que él es demasiado incompetente para lograr (o que su organización de TI está demasiado podrida para ser rescatable).

Para el 0.001% de las empresas, cuyos fundadores fueron multimillonarios antes de los 30 años, existen problemas reales de “big data”, “sistemas distribuidos” y “aprendizaje automático”. Si hace esta pregunta, definitivamente no está trabajando en un lugar que enfrenta estos problemas. Si escuchas a alguien a tu alrededor decir cosas como “debemos adoptar una arquitectura NoSQL para que sea a escala web”, DEFINITIVAMENTE no estás enfrentando ninguno de estos problemas.

Fuente: experiencia dolorosa e insoportable. El mío y el de otros.

Big Data tiene a muchos profesionales jóvenes entusiasmados con las excelentes perspectivas de carrera y, con razón, debido a la gran promesa que tiene este nuevo dominio. Establecer un punto de apoyo en este emocionante escenario puede llevar a su carrera a lugares seguros. Primero pongamos las cosas en perspectiva sobre Big Data.

Estas pepitas de información lo convencerán de la preponderancia e inevitabilidad de Big Data:

  • La producción de datos será 44 veces mayor en 2020 que en 2009 – wikibon
  • Los datos incorrectos o la mala calidad de los datos cuestan a las empresas estadounidenses $ 600 mil millones anuales

Según el estudio de Tech-crunch , veremos una proliferación abrumadora de teléfonos inteligentes en el futuro cercano y se estima que tendremos más de 6 mil millones de ellos para 2020. Además, ¿sabían que al mejorar la accesibilidad de los datos en solo 10 ¡El% puede aumentar el resultado final de una compañía Fortune 1000 en hasta $ 65 millones! Aquí hay otra revelación: hoy solo se analiza o utiliza aproximadamente el 0.5% de los datos a nuestra disposición según la investigación de MIT Technology Review . Entonces, imagine el potencial de lo que podemos hacer con Big Data en el futuro cercano. Cursos de Big Data en Intellipaat

Big Data Analytics es para ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden ser aprovechadas por los programas convencionales de inteligencia empresarial (BI) . Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las empresas de consultoría como Gartner Inc. y Forrest er Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data.

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis predictivo, el análisis de texto y el método estadístico. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos sin SQL. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como plataformas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de Big Data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hadoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las dificultades potenciales que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que suele estar involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Sí hay
Aprendizaje automático, distribuido y escalable para Big Data
Aprendizaje automático y Big Data – Microsoft Research Inria Joint Center
Gran lista de recursos: ciencia de datos, visualización, aprendizaje automático, big data

Big data es un concepto muy amplio. Literalmente significa muchos artículos con muchas características.

El aprendizaje automático es una idea abstracta de cómo enseñarle a la máquina a aprender utilizando los datos existentes y predecir los nuevos datos.

El sistema distribuido es más como una infraestructura que acelera el procesamiento y el análisis de Big Data.

Big data = sistemas distribuidos
Análisis de big data = aprendizaje automático + sistemas distribuidos