¿Cómo gana y retiene DeepMind los datos que necesita para el aprendizaje automático mientras garantiza la privacidad del paciente?

¿Cómo gana DeepMind los datos?

Simple: lo compran. Prácticamente todas las empresas de tecnología que se sumergen en el espacio de la atención médica compran datos de hospitales, consultorios médicos, compañías de seguros, compañías de facturación, centros académicos, etc. Eso tal vez no sea reconfortante, y la transacción en sí es generalmente más compleja (el valor comercializado no es necesariamente un montón de dinero), pero en realidad tener acceso a miles de puntos de datos de atención médica no es muy difícil en la actualidad.

¿Cómo garantiza DeepMind la privacidad del paciente?

En cierto punto, hay anonimato en los números. En el momento en que elimina los datos de identificadores únicos (nombre, SSN, dirección, etc.) de un conjunto de miles, es más o menos anónimo. ¿Cuántos hombres de 55 años con presión arterial alta y diabetes hay solo en los Estados Unidos? Miles Lleve eso a 75. Todavía miles. Lleve eso a 95. Todavía miles.

Fuera de ciertas condiciones genéticas raras, en realidad no es muy fácil identificar a un paciente dado usando solo sus datos médicos. Podría decirle que estoy describiendo a una mujer en el Área de la Bahía que tiene 60 años de edad, tiene presión arterial alta, toma metformina para la diabetes y anteriormente se sometió a una colecistectomía y una cesárea para uno de sus embarazos y le garantizo ‘ Todavía encontraré docenas de personas que encajan en este perfil. Haga casi cualquier historia de pacientes, e incluso en el mismo código postal en cualquier parte del país razonablemente poblada, encontrará varias personas que coinciden.

Supongo que la información en la que se basa DeepMind no requiere que se conozca la identidad del paciente. La información se agrega con otra información para generar recomendaciones de diagnóstico o tratamiento basadas en una gran cantidad de datos.

No he recibido información confidencial sobre DeepMind, pero estoy familiarizado con sistemas como este, y puedo decir con cierto grado de confianza que no es un gran problema proteger la privacidad. Siempre existe un riesgo de ciberseguridad con esa cantidad de datos en un solo lugar, ya que ningún sistema de servidores es 100% seguro contra un determinado ataque de ciberseguridad, especialmente uno lanzado por un gobierno hostil.

También me gustaría señalar que sistemas como este se están implementando para encontrar tratamientos para afecciones médicas que amenazan la vida. Cuando los pacientes necesitan ayuda de un sistema como DeepMind, es más probable que sean más abiertos acerca de su condición para encontrar a alguien o algo que pueda funcionar. La privacidad suele ser un problema con las afecciones de salud mental, enfermedades transmisibles que tienen un estigma asociado, como el VIH / SIDA o el embarazo adolescente.

Es posible conservar las propiedades estadísticas de los datos disponibles mientras se enmascaran los datos utilizando ruido (por ejemplo, agregando un pequeño delta a cada valor) y otros elementos. Esto se puede lograr mediante técnicas como la privacidad diferencial: Wikipedia. Dichas técnicas ayudan a aislar los datos de la persona de la que se obtuvieron, proporcionando así la privacidad necesaria a todos los involucrados. La mayoría de las técnicas de análisis de datos deben ser independientes del valor. Esto significaría que, independientemente de cuáles sean los valores, la técnica debe funcionar siempre que las propiedades estadísticas subyacentes y los patrones emergentes sigan siendo los mismos.

Como otra respuesta ha mencionado, el tipo de análisis de datos que DeepMind y otras compañías están haciendo usando los registros de pacientes no requiere la identidad de las personas involucradas. Por lo tanto, esto es bastante fácil de lograr utilizando los métodos disponibles.

No estoy seguro de cómo lo hace Deepmind, pero hay métodos que pueden extraer patrones de los datos y mantenerlos encriptados al mismo tiempo. CryptoDL y este proyecto de código abierto son intentos de hacer exactamente eso.