¿Cómo manejan las empresas el análisis cooperativo de datos que preserva la privacidad? ¿Hay algunos casos reales?

Definitivamente no soy la mejor persona para responder esto y no voy a dar una respuesta técnica astuta que explique cómo cifrar, codificar o calcular datos para hacer esto. Creo que tengo una perspectiva que podría ser útil como una simple descripción general al pensar en compartir PII entre empresas separadas. En mi experiencia…

En el primer caso; donde dos empresas comparten datos para colaborar en el análisis.

  1. Siempre hay problemas legales que abordar en ambos lados cuando se trata de compartir datos confidenciales de cualquier tipo. Los abogados definen claramente las reglas legales para ambas partes en términos de los datos que se comparten, cómo se manejarán, quién los tocará y cómo \ cuándo serán destruidos. Este proceso a menudo puede tardar un tiempo en completarse y cerrarse, incluso si el análisis final solo toma un día.
  2. Ciertos tipos de datos completos bajo varios actos legales. Si maneja este dominio de datos que cae dentro de su alcance, debe estar familiarizado con los siguientes actos. FCRA, GLB, DPPA, HIPAA, HITECH etc.

El intercambio de datos entre empresas de PII es un asunto serio. Desde una perspectiva operativa, el aspecto de privacidad de combinar datos de negocios separados presenta desafíos que pueden obstaculizar seriamente su capacidad de escalar en una producción que enfrenta grandes negocios de datos. Imagine por un momento que tiene datos de 50,000 fuentes que se transmiten, cada uno tiene su propio acuerdo de licencia que rige el uso de los datos. Con el tiempo, ha agregado eso en 10 Petabytes a los que 20,000 clientes y millones de usuarios desean acceder de diferentes maneras.

Debe poder rastrear cada byte hasta la fuente original, siempre. Cada consulta que toca datos tiene que devolver datos de índices con miles de millones de filas en un abrir y cerrar de ojos sin dejar de hacer un seguimiento del uso permitido, siempre. Esto es tan fundamental para el negocio de agregar PII (información de identificación personal) que nuestra plataforma de supercomputación tiene características específicas para atender esto, lo que nos permite escalar el negocio y todos los datos sin explotar nuestro código, personal de ingeniería o huella operativa exponencialmente porque de estos requisitos legales operativos. Es un poco menos complicado si usted es un gran negocio de datos que conserva solo sus propios datos (¡sus abogados probablemente duerman mejor también!).

En el segundo caso; donde dos empresas comparten datos pero la PII es anónima para ambas, hay algunas respuestas fáciles.

  1. Por lo general, los datos se anonimizan y los acuerdos legales prohíben específicamente anonimizarlos. Vea el comentario sobre abogados arriba.
  2. Dos empresas pueden compartir más fácilmente los datos donde se agregan, por ejemplo, código postal o nivel de condado o por grupo de edad, etc., por lo tanto, no existe toda la PII y se mantiene la privacidad. Esto es útil en los casos en que las dos empresas tienen características diferentes que tienen que ver con la misma entidad que no es PII (código postal, condado, universidad, etc.) y desea ver si hay algún valor predictivo para unirlas, incluso si cada lado No sabe cuáles son las características. Hay otras consideraciones además de PII (es decir, el acuerdo que recopiló los datos en primer lugar), por lo que aún debe asegurarse de que los abogados bendigan el acuerdo.

Estoy seguro de que hay formas más avanzadas de abordar esto, pero en general, si desea cooperar, los abogados intervienen y lo logran o no hace el trato.

Una desventaja del segundo caso es el caso de uso donde HIPAA anonimiza los datos de los pacientes y esto elimina la oportunidad de tomar una gran población de pacientes y hacer algo como relacionarlos con su historial de habitación completo y calcular geografías comunes a lo largo del tiempo que podrían alinearse con un diagnóstico o tratamiento, que sería bastante sencillo de hacer de otra manera. Con la PII del paciente anónima, es equivalente a mirar una sola porción de un escáner de gato.

More Interesting

Cuando trabajamos en aprendizaje automático en big data, ¿podemos usar la biblioteca scikit-learn con MLlib?

¿Qué le gusta de hacer ciencia de datos y aprendizaje automático?

¿Por qué proceso decide si usar R o Python (Pandas) para leer y analizar grandes conjuntos de datos con formato CSV?

Cómo construir y mantener una hoja de ruta de pruebas A / B

¿Los científicos de datos usan programación orientada a objetos?

¿Es la estadística aplicada una buena especialidad para la ciencia de datos?

Quiero ser exhaustivo con programación y estadísticas en profundidad en poco tiempo. ¿Qué tengo que hacer? ¿Cuáles son algunos buenos libros para principiantes / intermedios?

¿Qué piensan las personas que usan Machine Learning del uso de Quora de Machine Learning?

¿Qué tan importante es el cálculo para la ciencia de datos?

¿Cuál es la diferencia entre minería de datos, ciencia de datos y bigdata?

¿Qué tan útil es el big data, dado que la gente cambia?

¿Hay empresas o startups que ofrecen Apache Mahout o similar como un producto, distribución o servicio empaquetado?

Quería obtener el certificado de ciencia de datos de Harvard. ¿Las materias enseñadas en este curso de certificación sientan una base sólida requerida para cambiar de carrera a la corriente de la ciencia de datos?

¿Cuáles son las ventajas de 'Big Data' sobre las técnicas estándar?

¿Cuál es el salario promedio de un recién graduado universitario de Data Scientist en India?