La anonimización debe realizarse lo más arriba posible, por lo que si pudiera, lo haría en la fuente, antes de que los datos lleguen a Kafka. Siempre un enfoque más escalable y seguro / compatible: nunca tendrá información PII en su clúster kafka de esta manera.
Si esa no es una opción, simplemente lo haría en la ingesta: generalmente configuro algún tipo de API controlada frente a Kafka, y es trivial soltar campos antes de enviar mensajes a un tema.
Si los datos deben terminar en Kafka, dado que la anonimización suele ser una simple operación map () para eliminar campos, puede usar un SMT Kafka. Usar spark / flink / streams parece una exageración bastante seria para una operación tan simple. Por supuesto, si desea enriquecer los datos de maneras interesantes o hacer un trabajo de transmisión real con ellos, entonces ciertamente sería interesante hacer el procesamiento de la transmisión.
- ¿Cuáles son algunas de las tecnologías antiguas perdidas?
- Pakistán no es un país rico. ¿Quién, entre sus ciudadanos, tiene la oportunidad de estudiar informática / tecnología?
- Si se lanzara un virus informático suficientemente potente y avanzado, ¿podría eventualmente paralizar toda la tecnología en la Tierra y en el espacio?
- ¿Hay datos válidos sobre cuántos trabajos se perderán con la tecnología en los próximos años?
- ¿Cómo ha afectado la tecnología a las relaciones?