¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?

Si está buscando evaluar y reducir el riesgo de divulgación de datos, le recomiendo consultar el “Manual para el control de divulgación” disponible en
http://neon.vb.cbs.nl/casc/handb…

Tenga en cuenta que el sitio es el hogar de µ-Argus y tau-argus, dos paquetes para evaluar y reducir el riesgo en microdatos y tablas de datos agregados (respectivamente).
Estas son herramientas avanzadas que implementan muchos de los métodos y algoritmos descritos en el manual. Sin embargo, tenga en cuenta que el software no es particularmente trivial de usar y requiere que los datos / metadatos estén formateados de una manera específica.

El sitio también proporciona referencias / documentos sobre el tema SDC. Las actividades en torno a Argus son impulsadas por varias agencias estadísticas europeas. Algunos de los individuos clave son los autores del libro de Control Estadístico de Divulgación mencionado en la página de inicio (http://ca.wiley.com/WileyCDA/Wil…)

Otra buena opción para mirar es el paquete sdcMicro R (https://cran.r-project.org/web/p…). Tenga en cuenta que esto se centra principalmente en microdatos sin procesar (no datos agregados).

El sitio web de la Red Internacional de Encuestas de Hogares también proporciona excelentes materiales introductorios y orientación sobre el anonimato de datos (http://ihsn.org/home/anonymization), así como sobre varios otros temas relacionados con la gestión de datos estadísticos, incluidos los metadatos (http: // ihsn.org/home/guidelines). Estos se han desarrollado durante muchos años como mejores prácticas y recomendaciones para las agencias nacionales de estadística en los países en desarrollo (pero se aplican en todos los ámbitos).

Esta no es una tarea específica de algoritmo. Se trata de políticas y diseño general de bases de datos.

Mi grupo y yo teníamos la misma pregunta sobre la gestión de reclamaciones en el seguro de salud. Lo respondimos por medio de un experimento: pruebe diferentes algoritmos y conjuntos y compárense sistémicamente.