¿Cómo es útil el Big Data para las personas? La tecnología cambia la vida futura

Big data ha encontrado varios usos para la humanidad y es muy útil para las personas.

Esta sección le proporcionará una descripción detallada de los casos de uso de big data de la vida real y las aplicaciones de big data en varios dominios:

Detección de fraude con tarjeta de crédito

Como millones de personas usan una tarjeta de crédito hoy en día, se ha vuelto muy necesario proteger a las personas de los fraudes. Se ha convertido en un desafío para las compañías de tarjetas de crédito identificar si la transacción solicitada es fraudulenta o no.

Una transacción con tarjeta de crédito apenas demora de 2 a 4 segundos en completarse. Por lo tanto, las empresas necesitan una solución innovadora para identificar las transacciones que pueden aparecer como fraude en este pequeño tiempo y así proteger a sus clientes de convertirse en víctimas.

Un número anormal de clics desde la misma dirección IP o un patrón en los tiempos de acceso, aunque esta es la forma más obvia y fácil de identificar de fraude de clics, es sorprendente cuántos estafadores todavía usan este método, particularmente para ataques rápidos. Pueden elegir una huelga durante un largo fin de semana cuando piensan que es posible que no esté viendo sus archivos de registro cuidadosamente, haciendo clic en su anuncio repetidamente para que cuando regrese a trabajar el martes, su cuenta se agote significativamente. Parte de este fraude puede ser involuntario cuando un usuario intenta volver a cargar una página.

Una vez más, si ha realizado alguna transacción desde Mumbai hoy y al minuto siguiente hay una transacción desde su tarjeta en Singapur. Luego hay posibilidades de que esta transacción sea fraudulenta y no realizada por usted. Por lo tanto, las empresas deben procesar los datos en tiempo real (DIM de análisis de datos en movimiento) y analizarlos contra el historial individual en un lapso de tiempo muy corto e identificar si la transacción es realmente fraudulenta o no. En consecuencia, las empresas pueden aceptar o rechazar la transacción en función de la gravedad.

Para procesar los flujos de datos necesitamos motores de transmisión como Apache Flink. El motor de transmisión puede consumir las transmisiones de datos en tiempo real con una eficiencia muy alta y procesar los datos en baja latencia (sin demora). Siga este tutorial de Flink para obtener más información sobre Apache Flink.

Análisis de los sentimientos

El análisis de sentimientos proporciona sustancia detrás de los datos sociales. Una tarea básica en el análisis de sentimientos es clasificar la polaridad de un texto dado a nivel de documento, oración o característica / aspecto, ya sea que la opinión expresada en un documento, una oración o una característica / aspecto de entidad sea positiva, negativa o neutral. La clasificación avanzada de sentimientos “más allá de la polaridad” se refiere, por ejemplo, a estados emocionales como “enojado”, “triste” y “feliz”.

En el análisis de sentimientos, el lenguaje se procesa para identificar y comprender los sentimientos y actitudes de los consumidores hacia las marcas o los temas en las conversaciones en línea, es decir, lo que están pensando sobre un producto o servicio en particular, si están contentos o no con él, etc.

Por ejemplo, si una empresa está lanzando un nuevo producto, puede encontrar lo que sus clientes piensan sobre el producto. Ya sea que estén satisfechos con él o no, o les gustaría tener algunas modificaciones, se puede encontrar utilizando Big Data haciendo un análisis de opinión, es decir, utilizando un análisis de opinión, podemos identificar la opinión de los usuarios sobre lo mismo. Luego, la empresa puede tomar medidas en consecuencia para modificar o mejorar el producto para aumentar sus ventas y hacer que los clientes estén contentos con su producto.

A continuación se muestra un ejemplo real de análisis de sentimientos:

Una gran compañía aérea comenzó a monitorear tweets sobre sus vuelos para ver cómo se sienten los clientes sobre las actualizaciones, los nuevos aviones, el entretenimiento, etc. Nada especial allí, excepto cuando comenzaron a enviar esta información a su plataforma de atención al cliente y a resolverlos en tiempo real.

Una instancia memorable ocurrió cuando un cliente tuiteó negativamente sobre el equipaje perdido antes de abordar su vuelo de conexión. Recogen los tweets (que tienen problemas) y le ofrecen una actualización gratuita de primera clase en el camino de regreso. También rastrearon el equipaje y dieron información sobre dónde estaba y dónde lo entregarían. No hace falta decir que estaba bastante sorprendido al respecto y tuiteó como un campista feliz durante el resto de su viaje.

Con Hadoop, puede extraer conversaciones de Twitter, Facebook y otras redes sociales para obtener datos de opinión sobre usted y su competencia, y usarlo para tomar decisiones específicas en tiempo real que aumenten la participación en el mercado. Con la ayuda de un análisis rápido del sentimiento de los clientes a través de las redes sociales, la empresa puede tomar decisiones y acciones de inmediato y no necesitan esperar el informe de ventas (que también puede tomar 6 o más meses) como antes para administrar su negocio de una mejor manera.

Procesamiento de datos (minorista)

Veamos ahora una aplicación para Leading Retail Client en India. El cliente recibía diariamente datos de factura que tenían un tamaño de aproximadamente 100 GB y estaban en formato XML. Para generar un informe a partir de los datos, el método convencional demoraba alrededor de 10 horas y el cliente tuvo que esperar este tiempo para obtener el informe de los datos.

Este método convencional se desarrolló en C y estaba tardando mucho tiempo, lo que no era una solución factible y el cliente no estaba contento con él. Los datos de la factura estaban en formato XML, que debe transformarse en un formato estructurado antes de generar el informe. Esto implicó la validación, la verificación de datos y la implementación de reglas comerciales complejas.

En el mundo actual, cuando se espera que las cosas estén disponibles en cualquier momento cuando sea necesario, esperar 10 horas no era una solución adecuada y aceptable. Entonces, el cliente se acercó al equipo de Big Data de una de las compañías con su problema y con la esperanza de obtener una mejor solución. El cliente incluso pudo aceptar un tiempo reducido de 10 horas a 5 horas o incluso más.

Cuando el equipo de Big Data comenzó a trabajar en su problema y se acercó a ellos con la solución, el cliente se sorprendió y no podía creer que el informe que recibían en 10 horas ahora se pudiera recibir en solo 10 minutos usando Big Data y Hadoop. El equipo utilizó un grupo de 10 nodos para generar los datos y ahora el tiempo necesario para procesar los datos fue de solo 10 minutos. Para que pueda imaginar la velocidad y la eficiencia de Big Data en el mundo de hoy.

Para obtener más información sobre casos de uso de big data en la industria minorista, siga este tutorial.

Vacaciones, vuelos baratos, boletos aéreos y tarifas aéreas

Orbitz es una compañía de viajes líder que utiliza las últimas tecnologías para transformar la forma en que los clientes de todo el mundo planifican los viajes. Operan los sitios de planificación de viajes de clientes Orbitz, Ebookers y CheapTickets.

Genera 1.5 millones de búsquedas de vuelos y 1 millón de búsquedas de hoteles diariamente y los datos de registro que genera esta actividad tienen un tamaño aproximado de 500 GB. Los registros sin procesar solo se almacenan durante unos días debido al costoso almacenamiento de datos. Manejar datos tan grandes y almacenarlos utilizando el almacenamiento de datos convencional y la infraestructura de análisis se estaba volviendo más costoso y lento con el tiempo.

Por ejemplo, para buscar hoteles en la base de datos utilizando un enfoque convencional que se desarrolló en Per / Bash, la extracción debe realizarse en serie. El tiempo que llevó procesar y clasificar los hoteles en función de los datos de los últimos 3 meses también fue de 2 horas, lo que nuevamente no era una solución aceptable y factible hoy en día cuando los clientes esperan que se generen resultados con solo un clic.

Este problema nuevamente fue muy grande y necesitaba alguna solución para proteger a la compañía de la pérdida de sus clientes. Orbitz necesitaba una forma efectiva de almacenar y procesar estos datos, además de que necesitaban mejorar su clasificación de hoteles. Luego se intentó usar el enfoque Big Data y Hadoop. Aquí se utilizaron HDFS, Map Reduce y Hive para resolver el problema y se recibieron resultados sorprendentes. Un clúster de Hadoop proporcionó una forma muy rentable de almacenar grandes cantidades de registros sin procesar. Los datos se limpian y analizan y se ejecutan algoritmos de aprendizaje automático.

Anteriormente, cuando se tardaba aproximadamente 2 horas en generar el resultado de búsqueda en los datos del hotel de los últimos 3 meses, el tiempo se redujo a solo 26 minutos para generar el mismo resultado con Big Data. Big Data fue capaz de predecir las tendencias de búsqueda de hoteles y vuelos mucho más rápido, más eficiente y más barato que el enfoque convencional.

Sears Holding

Ahora veremos cómo Sears Holding utilizó Hadoop para personalizar las campañas de marketing.

Sears es una cadena multinacional estadounidense de grandes almacenes con más de 4.000 tiendas con millones de productos y 100 millones de clientes. A partir de 2012, es la cuarta compañía de grandes almacenes de EE. UU. Por ventas minoristas y es el 12º minorista más grande de los Estados Unidos, liderando a su competidor Macy’s en 2013 en términos de ingresos.

Con tantas tiendas y clientes, Sears ha recopilado más de 2 PB de datos hasta ahora. Ahora el problema surgió cuando los sistemas heredados se volvieron incapaces de analizar grandes cantidades de datos para personalizar las campañas de marketing y fidelización. Querían personalizar las campañas de marketing, los cupones y las ofertas hasta el cliente individual, pero nuestros sistemas heredados fueron incapaces de soportar lo que estaba llevando a la disminución de sus ingresos.

Mejorar la lealtad de los clientes, y con ello las ventas y la rentabilidad, era sumamente importante para Sears debido a la gran competencia.

El proceso convencional de Sears para analizar campañas de marketing para miembros del club de fidelización solía llevar seis semanas en servidores mainframe, Teradata y SAS para analizar solo el 10% de los datos de los clientes. Aquí llegó la implementación de vanguardia de Apache Hadoop, la plataforma de procesamiento de datos de código abierto a gran escala que impulsa la tendencia de los grandes datos.

Con el nuevo enfoque de Big Data, Sears cambió a Hadoop con 300 nodos de servidores básicos. El nuevo proceso que se ejecuta en Hadoop se puede completar semanalmente para un análisis del 100% de los datos del cliente. Mientras que los modelos antiguos utilizaban el 10% de los datos disponibles, los nuevos modelos se ejecutan al 100%. Para ciertos escenarios de comercio en línea y móvil, Sears ahora puede realizar análisis diarios. Los informes interactivos se pueden desarrollar en 3 días en lugar de 6 a 12 semanas con este método.

Este movimiento ahorró millones de dólares en costos de mainframe y RDBMS y obtuvo un rendimiento 50 veces mejor para Sears. Incluso pudieron aumentar los ingresos mediante un mejor análisis de los datos de los clientes de manera oportuna y rápida.

Análisis de la canasta de mercado

En el comercio minorista, los datos de inventario, precios y transacciones se distribuyen en múltiples fuentes. Los usuarios comerciales deben recopilar esta información para comprender los productos, encontrar precios razonables, encontrar plataformas de soporte para que sus usuarios en línea tengan un rendimiento eficiente y dónde orientar los anuncios.

El análisis de la cesta de la compra puede proporcionar al minorista información para comprender el comportamiento de compra de un comprador de lo que está buscando y qué otras cosas puede estar interesado en comprar junto con este producto.

Una aplicación obvia de Market Basket Analysis es en el sector minorista, donde los minoristas tienen grandes cantidades de datos de transacciones y, a menudo, miles de productos. Uno de los ejemplos reconocibles es Amazon, su sistema de recomendación es uno de los mejores: “las personas que compraron un artículo en particular también compraron artículos X, Y y Z”. Market Basket Analysis es aplicable en muchas otras industrias y casos de uso

Por ejemplo, el líder de una empresa minorista en la industria de la moda analizó los datos de ventas de los últimos tres años. Hubo más de 100 millones de recibos, pero los resultados obtenidos pueden usarse como un indicador para definir nuevas iniciativas promocionales, identificar esquemas óptimos para el diseño de productos en tiendas, etc.

Esta información permitirá al minorista comprender las necesidades del comprador y reescribir el diseño de la tienda en consecuencia, desarrollar programas de promoción cruzada o incluso capturar nuevos compradores. Al analizar el patrón de compra de los usos, pueden identificar qué artículos compraron juntos. Para que la tienda sea amigable para el cliente, estos artículos se pueden armar y se pueden ejecutar campañas relevantes para atraer nuevos compradores.

El algoritmo de Market Basket Analysis puede personalizarse según las necesidades de los usuarios. Para aumentar las ventas, los supermercados están tratando de hacer que la tienda sea más amigable para el cliente. Ahora los usuarios de negocios pueden investigar profundamente la efectividad del marketing y las campañas.

Las organizaciones de marketing y ventas de todas las industrias buscan analizar, comprender y predecir el comportamiento de compra para lograr los objetivos de reducir la rotación de clientes y maximizar el valor de vida útil del cliente (CLV). Vender productos y servicios adicionales a clientes existentes a lo largo de su vida es clave para optimizar los ingresos y la rentabilidad. Las reglas de asociación de Market Basket Analysis identifican los productos y servicios que los clientes suelen comprar juntos, lo que permite a las organizaciones ofrecer y promocionar los productos correctos a los clientes correctos.

Para implementar este complejo caso de uso, Apache Spark es la mejor solución que proporciona un marco generalizado para manejar diversos casos de uso. El análisis de la cesta de la compra debe desarrollarse utilizando algoritmos de aprendizaje automático. Apache Spark proporciona MLlib, que es una rica biblioteca de aprendizaje automático. Spark ejecuta el algoritmo iterativo (las ejecuciones de Machine Learning son de naturaleza iterativa) de manera muy eficiente.

Análisis de rotación de clientes

El análisis de abandono es el cálculo de la tasa de deserción en la base de clientes de cualquier empresa. Implica identificar a los consumidores que tienen más probabilidades de dejar de usar su servicio o producto.

Perder al cliente no es del agrado de ninguna industria. En el mercado actual, todas las industrias que se enfrentan a los clientes se enfrentan al problema de la rotación de clientes debido a la gran competencia en el mercado. Industrias como el comercio minorista, las telecomunicaciones, los bancos, etc. se enfrentan a este problema gravemente.

La mejor manera de gestionar estos problemas será predecir los suscriptores que probablemente se retiren, con suficiente antelación para que las empresas puedan tomar las medidas necesarias para mitigarlo y recuperar a los clientes o reactivar la base de espera.

Las industrias están interesadas en encontrar la causa raíz de la pérdida de clientes; Quieren saber por qué el cliente los abandona y cuál es el factor más importante. Para descubrir la causa raíz de la pérdida de clientes, las empresas deben analizar los siguientes datos. Estos datos pueden estar en el rango de TB a PB

Las empresas necesitan revisar miles de millones de quejas de clientes que se almacenan durante años y resolverlas con efecto inmediato.
Datos de las redes sociales, donde los usuarios escriben su opinión sobre el producto que están utilizando a partir del cual las empresas pueden identificar si a los clientes les gustan o no sus productos.

Tomemos un ejemplo de análisis de centro de llamadas. Aquí los datos utilizados son el registro de llamadas y los datos transaccionales. Muchos bancos están integrando estos datos del centro de llamadas con su almacén de datos transaccionales para reducir la rotación y aumentar las ventas, alertas de monitoreo de clientes y detección de fraude.

Apache Flink (4G de Big Data) ofrece la oportunidad de aprovechar la interacción del cliente interna y externa y los puntos de datos de comportamiento para detectar, medir y mejorar el objetivo deseado pero ilusorio de un éxito consistente y gratificante de la experiencia del cliente.

Estudie cómo los grandes datos están ayudando en la conservación de la vida silvestre.

Para conocer la comparación inteligente de características entre Hadoop vs Spark vs Flink, siga esta guía de comparación.

Big DataBig Data AnalysisData AnalysisData Science