¿Cuáles son algunas aplicaciones impresionantes de big data y machine learning?

DATOS Científicos, modeladores predictivos y otros profesionales de análisis para analizar grandes volúmenes de datos de transacciones, así como otras formas de datos que los programas convencionales de inteligencia empresarial (BI) no pueden aprovechar. Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data. Cursos de Big Data en Intellipaat

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis predictivo, el análisis de texto y el método estadístico. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como plataformas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de Big Data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hadoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las posibles trampas que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que suele estar involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Aquí hay un par de casos de uso general que he visto. A propósito, estoy dejando el sistema de marketing de Big Data fuera de la lista, porque eso es demasiado fácil.

Creo que estos son impresionantes:

  1. Instrumentación en tiempo real : recopilación de datos y ajuste de procesos. Un sistema que recopila puntos de datos en tiempo real como corriente, voltaje, rpm, un interruptor de límite o ojo de foto y más. Luego, el sistema puede aprender a través del acondicionamiento y el ajuste. Tradicionalmente, estos sistemas se construyeron en torno a RDMBS o controladores discretos; ahora, los sistemas de valor clave como Redis y MongoDB se utilizan para recopilar esta información de manera extremadamente rápida, utilizan el aprendizaje automático para comprender el “estado”, predecir y ajustar la salida. El control discreto sigue siendo parte del sistema. Sin embargo, ahora los sistemas están ‘aprendiendo’ y ajustándose para optimizar la salida frente a un sistema de estado estable que siempre procesa de la misma manera.
  2. Recopilación de datos de alta velocidad extrema : piense en la cámara de reacción sin la factura de electricidad. Digamos que está construyendo la próxima generación de su producto y tiene un estado de falla. Un lugar donde si presiona demasiado, el producto se descompondrá. Necesitas encontrar ese estado. Ha usado simulación y matemática para predecir las condiciones, pero ahora tiene un prototipo y desea validar su posición. Es muy costoso construir estos prototipos. Por lo tanto, ha configurado un experimento para recopilar datos y asignarlos: múltiples cámaras e instrumentos de alta velocidad (como se mencionó anteriormente): estos sistemas generan TB de datos por segundo con replicación, tengo Los experimentos vistos generan 15 PB de datos en cuestión de minutos. Los datos adoptan muchas formas y en el pasado pasarían semanas o meses para ver los resultados. Ahora, con Big Data, Elasticsearch – Splunk>, Open Source Machine Learning y Visualización – Los resultados están disponibles en minutos. El punto: la escala de tiempo para la generación, recopilación, agregación y análisis se ha comprimido significativamente con Big Data; Eso es impresionante.

Todo lo mejor,
-Gus Segura

Yo diría que las aplicaciones de aprendizaje automático para el campo de la medicina son muy interesantes. Algunos problemas en este dominio incluyen:

  1. Prediciendo tiempos de espera en la sala de emergencias
  2. Identificación de insuficiencia cardíaca
  3. Predecir golpes y convulsiones
  4. Predicción de reingresos hospitalarios

Fuente: Seis nuevas aplicaciones de aprendizaje automático

La predicción precisa de los resultados de las elecciones presidenciales. Ver Nate Silver.