¿Cuáles son las desventajas de hacer una investigación utilizando datos de registros de salud electrónicos anónimos?

La investigación sobre registros de salud anonimizados interrumpe las conexiones sutiles entre variables que son cruciales para formular y probar conocimientos:

El mayor problema es poder fusionar conjuntos de datos similares. Con los datos identificados, esto es muy sencillo: enlace en cada paciente para construir un registro longitudinal. Con datos anonimizados, estos enlaces se rompen limitando el alcance de la información adicional. Esto puede ser un factor decisivo para muchos tipos de investigación prospectiva.
La imputación introduce sesgos. Los datos de salud en las mejores circunstancias tienen mucha información faltante, y extraer la información estadística de estos conjuntos de datos inconsistentes requiere algunas conjeturas sobre la distribución subyacente. Una distribución previa mal elegida puede conducir a estimaciones cualitativamente pobres de los valores subyacentes reales.
Los modelos predictivos entrenados en conjuntos de datos anónimos tienen menos poder predictivo que aquellos entrenados en conjuntos de datos completos. Esto significa que si está construyendo un puntaje de riesgo para impulsar un protocolo, por ejemplo, para el manejo de la sepsis, es más probable que los datos anónimos etiqueten a una persona de alto riesgo como de bajo riesgo o una persona de bajo riesgo como de alto riesgo.

En general, la cantidad de datos anonimizados requeridos para entrenar un modelo a un poder predictivo dado es MUCHO, MUCHO más que la requerida de datos completamente identificados. Siempre que sea posible, trate de minimizar el anonimato y la falta de datos en sus conjuntos de datos.

Related Content

¿Cuál es el flujo de trabajo habitual de un científico de datos antes de comenzar a analizar un conjunto de datos?

¿Cuáles son los mejores equipos de ciencia de datos fuera de los Estados Unidos?

¿Existe alguna diferencia entre un científico de datos y el perfil ofrecido por Mu Sigma-Trainee Decision Scientist?

¿Cuál es el mejor marco de Python para el procesamiento en paralelo (procesamiento SMP y de clúster)?

¿Cuáles son algunos buenos institutos de capacitación en Delhi / Gurgaon como el NIIT, DUCAT, etc., que brindan capacitación en el aula sobre almacenamiento de datos, inteligencia empresarial y / u otras materias relacionadas con la ciencia de datos?

¿Qué significa esta notación de satisfacción de proposiciones compuestas para resolver un rompecabezas de Sudoku dado en matemáticas discretas?

R requiere que los datos se carguen en la RAM, ¿eso no dificulta el trabajo con grandes conjuntos de datos? En caso afirmativo, ¿cómo es R tan popular entre los científicos de datos?

More Interesting

¿Cuál es la configuración necesaria para comenzar la ciencia de datos con R en mi computadora portátil?

¿Cuáles son las ideas de proyectos de big data en el campo de la neurociencia?

¿Cuál es el camino de aprendizaje de big data?

¿Cuál es su opinión sobre el Programa Insight Data Science Fellows?

Soy un desarrollador de mainframe con 4 años de experiencia, aspirando a ser un científico de datos. ¿Donde debería empezar?

¿Cuál es la diferencia entre el almacenamiento de datos, la minería de datos y el análisis de datos?

¿Cómo debo planificar cuando aspiro a ser un científico de datos?

¿Qué es mejor, Data Science M.Tech de IIT Hyderabad o Big Data Analytics Certification de IIM Bangalore?

¿Qué tipo de libertades tengo con los datos de Kaggle?

¿Qué deportes son más conocidos por el análisis de datos?

¿Cuáles son los temas candentes para una tesis de maestría relacionada con el aprendizaje profundo o big data?

¿Cómo desarrollar un sistema de predicción de salud inteligente web utilizando la minería de datos? ¿Cuál es la mejor manera y herramientas?

¿En qué se parecen y se diferencian los problemas establecidos en CS 109 al trabajo como científico de datos real?

¿Cuáles son los peores gráficos que has encontrado?

Hoy en día, ¿la ciencia de datos se trata más de saber cómo usar herramientas y bibliotecas preconstruidas (de Python / R) que otra cosa?

Web Analytics