¿Qué es el Big Data POC?

POC (Prueba de concepto) es una implementación rápida y sucia de un concepto, idea o propuesta de proyecto para demostrar su viabilidad.

Big Data POC significaría un proyecto simple que involucra 10-100 horas-hombre en el que construye una demostración simple de su idea, propuesta de proyecto o propuesta de investigación y se la muestra a algún interesado (socio, profesor, inversor, usuario, etc.). Debería darle una idea suficiente sobre la imagen final de su solución y una estimación de cuánto tiempo y esfuerzo requeriría.

Aquí algunos ejemplos de Big Data POC:
1. Una base de datos distribuida escalable que también puede almacenar imágenes e indexarlas para una recuperación rápida.
2. Un sistema para rastrear las redes sociales y encontrar una persona según sus requisitos (como Big Data Engineer con 4 años de experiencia en Bangalore).
3. Una herramienta de BI que predice el éxito de una campaña de marketing en redes sociales y analiza el efecto de varios parámetros de dichas campañas a lo largo del tiempo y la ubicación.
4. Un competidor de próxima generación para Quora que clasifica las respuestas mejor y se asegura de que las preguntas troll no sobrevivan.

Pensé que la mejor manera de responder a esto es compartir un caso de uso de Big Data. Si puede desarrollar e implementar esto, tiene un Big Data PoC en funcionamiento.

Caso de uso de Big Data de comercio electrónico

Análisis de precios en tiempo real y tendencias históricas
A lo largo de los años, el fácil acceso a Internet ha visto el surgimiento de los portales de compras que enumeran productos de varios minoristas en el mercado virtual. Se espera que alrededor de 1.320 millones de personas en todo el mundo hagan sus compras en línea en 2016. Se prevé que gasten la friolera de 1,92 billones de dólares. En general, el panorama del comercio electrónico está experimentando una evolución tecnológica interesante y, como resultado, la cantidad de personas que utilizan Internet.

Reto
Hay varios sitios web que venden los mismos productos en línea, lo que permite a los compradores comparar precios y tomar decisiones de compra. Esto lleva a una situación en la que el cliente tiene que visitar muchos sitios para verificar los precios de estos productos. El mismo proceso ahora está automatizado y la función se conoce mejor como servicio / herramienta de comparación de precios. La mayoría de los servicios / herramientas disponibles obtienen esta información sobre la marcha, lo que genera demoras, ya que muchas llamadas API se realizan en múltiples sitios, por lo tanto, la experiencia del usuario no es satisfactoria. Además, tales herramientas no pueden utilizar datos para el análisis de las tendencias de precios e identificar patrones para proporcionar más información al cliente. Una solución mejor y más apropiada sería recopilar datos de varios sitios utilizando sus API y almacenar estos datos, procesar estos datos según los requisitos y luego hacer que estos datos procesados ​​estén disponibles para el cliente de manera intuitiva mediante la interfaz de usuario web / móvil. Sin embargo, los datos de los que estamos hablando serán enormes, ya que la mayoría de estos sitios web de comercio electrónico en línea tienen una cantidad de SKU únicos en miles de millones, además tienen un precio dinámico (lo que significa la recopilación periódica de datos de estos sitios), así como una gran cantidad de metadatos (necesarios para la identificación correcta) por SKU y contenido asociado, como información del producto, descripciones del producto, imágenes, revisiones, etc. Las soluciones de administración de bases de datos convencionales existentes solo pueden permitir que se analice un subconjunto de datos a la vez y que se ejecuten consultas de datos con gran latencia, por lo tanto, inapropiada para nuestros requisitos. La necesidad empresarial es procesar una gran cantidad de datos complejos de diversas fuentes más rápido y proporcionar información más intuitiva.

Solución
Utilice API / rastreadores para recopilar datos periódicamente (1 hora) de sitios web, guardar y actualizar estos datos en un repositorio HDFS. Desarrolle el código de MapReduce para permitir los cálculos de conjuntos de datos en los conjuntos de datos y coloque estos datos procesados ​​en las tablas de Hive. Intégrelo con las cadenas de herramientas de visualización o proporcione API REST para que los datos de Hive Table estén disponibles para el cliente web / móvil.

Supongo que no sabes lo que es poc, por lo tanto, comienza desde allí. La forma larga de POC es una prueba de concepto. No es más que un pequeño programa experimental que demuestra la usabilidad, la viabilidad de cualquier concepto y / o tecnología.

Ahora llegando a big data: en términos simples, big data es un concepto que está relacionado con el procesamiento de una cantidad masiva de datos (cualquier dato que esté en la escala de peta bytes) usando hardware relativamente barato (en términos de costo).

Para procesar estos datos, se han desarrollado muchas tecnologías. Algunos de los cuales son hadoop, colmena, cerdo, chispa, tormenta, etc.

Espero que esto responda a su pregunta.