¿Cuáles son algunas ideas para un proyecto de ‘sistemas’ de big data?

Aquí hay un enfoque:

  1. Elija un sitio web con mucho tráfico que le guste (por ejemplo, Pinterest o LinkedIn o Quora).
  2. Enumere las características principales y los flujos de datos para el sitio. ¿Qué pueden hacer los usuarios en el sitio? ¿Qué tipo de datos generan y consumen? ¿Cómo es probable que los sistemas internos usen esos datos? ¿Dónde van a estar los cuellos de botella?
  3. Intente diseñar y construir una arquitectura que aborde los desafíos y los casos de uso identificados en el paso anterior. Puede usar apéndices para funciones complejas (por ejemplo, su motor de “recomendación” puede tomar una entrada, dormir durante 20 ms y luego generar una salida constante).
  4. Cree un script que alimente su sistema con muchos datos aleatorios y vea cómo se mantiene su diseño. Repita el diseño para obtener un mejor rendimiento, latencia y confiabilidad.
  5. [Opcional] Compare su arquitectura con las descripciones disponibles públicamente de cómo se diseñó realmente el sistema que está replicando. La alta escalabilidad es un recurso particularmente bueno para leer sobre cómo se crean sitios como Twitter y Disqus.

More Interesting

¿Cuál debería ser el contenido del curso 'Introducción al aprendizaje automático' para estudiantes de 6to semestre de CS sin conocimiento previo de ciencias de datos?

Aprendizaje automático: ¿cómo puedo obtener eventos y acontecimientos en la vida de las personas a partir de sus estados en Facebook o tweets?

¿Qué es un buen instituto de capacitación para ciencia de datos y big data en Kolkata?

¿Cuáles son los métodos de selección de funciones disponibles en los paquetes de Python?

¿Es posible la carrera en ciencia de datos sin codificación o muy poca codificación?

¿Cuáles son los casos de uso de SQL en estadísticas y análisis de datos?

Cómo aprender Tableau, de 0 a 10, en unos pocos meses.

¿Existe una relación entre la compresión de datos y la optimización del código?

¿Es manejable tomar el curso de especialización en ciencia de datos de John Hopkins en Coursera sin experiencia en programación?

¿Qué técnicas analíticas de datos debo aprender para el comercio minorista?

¿Qué es mejor para un doctorado de aprendizaje automático, UMass Amherst o la Universidad de Edimburgo?

¿Cuáles son los desafíos para clasificar los datos informáticos de salud?

¿Cuál es el mejor programa de aprendizaje automático de código abierto (red neuronal) para el reconocimiento de patrones de datos complejos?

¿Cuál es el lenguaje de programación más común / importante para la ciencia de datos?

En Machine Learning, ¿pueden dos variables con alta correlación tener signos de coeficientes (pesos) diferentes y por qué?