Cada equipo de producción de películas tiene un equipo de marketing que se encarga de todo el marketing y la publicidad de la próxima película. Y luego, cada equipo de marketing otorga un contrato a la empresa Analytics que consiste en un ingeniero de Big Data / Data Scientist / Data Analyst. Ofrecen algunas recomendaciones, como en qué plataforma deberían anunciarse o dónde colocar carteles o pancartas para que la publicidad de esa película pueda llegar al máximo público.
Supongamos que hay una próxima película llamada “Ice Age”. Big Data Engineer / Data Scientist / Data Analyst descubrirá las siguientes cosas en función de los hechos o registros / detalles anteriores disponibles para ellos
- Conocer las 50 regiones principales que tiene la población más alta para el grupo de edad de 6 a 18 años.
- Conocer las 50 regiones principales que ha obtenido los mayores ingresos en películas animadas en los últimos 5 años.
- Averiguando la región que está directamente asociada a la película.
- Conocer todos los canales de dibujos animados y canales de películas para que puedan anunciarse en él.
- Descubre los 20 mejores juegos en línea como miniclip o algo así, para que puedan anunciarse junto a sus juegos.
- Descubre la película más popular actualmente y para que puedan mostrar el nuevo avance de la película durante el intervalo.
- Encontrar empresas de fabricación de juguetes como “Toys R Us” para que puedan hacer nuevos juguetes atractivos relacionados con esa película.
- Encontrar escuelas locales para que puedan poner pancartas cerca de las escuelas.
- Encontrar una compañía de productos para bebés como Johnson & Johnson para que puedan crear una oferta introductoria como estampar imágenes de personajes de películas en champús o pañales para el cuidado del bebé, o hacer jabón para bebés como los personajes de películas.
- Descubrir los 10 mejores niños relacionados con tu canal de metro o videos.
Para descubrir todas estas cosas, hay muchos datos disponibles y todos esos datos pueden almacenarse en algún lugar y pueden generarse continuamente en vivo. Entonces, para todo esto, necesita almacenar todos estos datos de transmisión y algunos conjuntos de datos en el Sistema de archivos distribuidos de Hadoop utilizando el canal de Apache (solo para la transmisión de datos) o algunas otras técnicas. Una vez que se cargan los datos, puede ejecutar el programa Map Reduce o Apache Hive para obtener todos los resultados deseados. También puede usar Apache Spark si lo desea en lugar de Map reduce si lo desea.
- ¿Cómo trato con los datos faltantes cuando ejecuto una regresión logística?
- ¿Qué conjuntos de datos tienen variables categóricas y funcionarán bien con regresión lineal?
- ¿Qué hace el equipo de datos en Addepar?
- ¿Cuál es el conjunto de datos útil para el análisis de flujo de datos en tiempo real?
- ¿Los gráficos circulares merecen su reputación actual como malas visualizaciones?