¿Cuáles son las desventajas de hacer una investigación utilizando datos de registros de salud electrónicos anónimos?

La investigación sobre registros de salud anonimizados interrumpe las conexiones sutiles entre variables que son cruciales para formular y probar conocimientos:

  • El mayor problema es poder fusionar conjuntos de datos similares. Con los datos identificados, esto es muy sencillo: enlace en cada paciente para construir un registro longitudinal. Con datos anonimizados, estos enlaces se rompen limitando el alcance de la información adicional. Esto puede ser un factor decisivo para muchos tipos de investigación prospectiva.
  • La imputación introduce sesgos. Los datos de salud en las mejores circunstancias tienen mucha información faltante, y extraer la información estadística de estos conjuntos de datos inconsistentes requiere algunas conjeturas sobre la distribución subyacente. Una distribución previa mal elegida puede conducir a estimaciones cualitativamente pobres de los valores subyacentes reales.
  • Los modelos predictivos entrenados en conjuntos de datos anónimos tienen menos poder predictivo que aquellos entrenados en conjuntos de datos completos. Esto significa que si está construyendo un puntaje de riesgo para impulsar un protocolo, por ejemplo, para el manejo de la sepsis, es más probable que los datos anónimos etiqueten a una persona de alto riesgo como de bajo riesgo o una persona de bajo riesgo como de alto riesgo.

En general, la cantidad de datos anonimizados requeridos para entrenar un modelo a un poder predictivo dado es MUCHO, MUCHO más que la requerida de datos completamente identificados. Siempre que sea posible, trate de minimizar el anonimato y la falta de datos en sus conjuntos de datos.