Gracias por el A2A, como Reynold Xin y otros declararon: No todos los datos deben estar en la memoria.
Hay 2 tipos de escenario cuando se trata con datos de registro:
- Minería de registros: en ese caso, en realidad está tratando con spark-core y spark-sql directamente en sus datos. Los datos son estáticos. Spark se ocupará de los datos por fragmentos e incluso es posible que pueda conservar estos fragmentos en el disco para su uso posterior. O incluso empuje hacia abajo los predicados para filtrar lo que no se necesita.
- Análisis de flujo de registro: en este caso, la transmisión por chispa se unirá a los componentes citados anteriormente, pero la diferencia aquí es que usted lee una gran cantidad de datos provenientes de productores como Kafka y los procesa en lotes. Los lotes son generalmente pequeños, usted podría realizar algunos análisis de RT y escribir sus resultados en una base de datos o sistema de archivos.
Nota : La descripción anterior es una abstracción de alto nivel sobre cómo puede ver que su sistema maneje la cantidad de datos mencionados en la pregunta. No es tan obvio como podría parecer. El ajuste, las configuraciones y los puntos de control son una necesidad para que esto funcione.
- ¿De dónde viene el gráfico en una red bayesiana?
- ¿Cuáles son algunas aplicaciones de PageRank que no sean motores de búsqueda?
- Cómo usar el método probabilístico para probar el problema de Ramsey multicolor
- ¿Qué prueba estadística usar para cuantificar la similitud entre dos distribuciones cuando no son normales?
- ¿Qué debo hacer para comprender las matemáticas y los algoritmos detrás de la propagación inversa, CNN y RNN?
Espero que esto responda a tu pregunta.