La investigación sobre registros de salud anonimizados interrumpe las conexiones sutiles entre variables que son cruciales para formular y probar conocimientos:
- El mayor problema es poder fusionar conjuntos de datos similares. Con los datos identificados, esto es muy sencillo: enlace en cada paciente para construir un registro longitudinal. Con datos anonimizados, estos enlaces se rompen limitando el alcance de la información adicional. Esto puede ser un factor decisivo para muchos tipos de investigación prospectiva.
- La imputación introduce sesgos. Los datos de salud en las mejores circunstancias tienen mucha información faltante, y extraer la información estadística de estos conjuntos de datos inconsistentes requiere algunas conjeturas sobre la distribución subyacente. Una distribución previa mal elegida puede conducir a estimaciones cualitativamente pobres de los valores subyacentes reales.
- Los modelos predictivos entrenados en conjuntos de datos anónimos tienen menos poder predictivo que aquellos entrenados en conjuntos de datos completos. Esto significa que si está construyendo un puntaje de riesgo para impulsar un protocolo, por ejemplo, para el manejo de la sepsis, es más probable que los datos anónimos etiqueten a una persona de alto riesgo como de bajo riesgo o una persona de bajo riesgo como de alto riesgo.
En general, la cantidad de datos anonimizados requeridos para entrenar un modelo a un poder predictivo dado es MUCHO, MUCHO más que la requerida de datos completamente identificados. Siempre que sea posible, trate de minimizar el anonimato y la falta de datos en sus conjuntos de datos.
- ¿Cuáles son los requisitos previos para aprender Hadoop y big data en master of science para nosotros?
- ¿Cómo puede ayudar la ciencia de datos a impulsar a los países en desarrollo?
- ¿Cuáles son los alcances después de aprender Big Data Analytics?
- ¿Es posible aprender el aprendizaje automático y la ciencia de datos a través de MOOCS y otras fuentes en línea o debería estudiar una maestría en CS?
- Big data es mucho que aprender. ¿Cómo comienzo de una manera simple?