¿Por qué las imágenes médicas anónimas no se comparten libremente como conjuntos de datos de aprendizaje automático?

La premisa no es precisa. NIH mantiene conjuntos de datos de imágenes de cadáveres bastante extensos y detallados con RMN y TC junto con imágenes de corte transversal de tejido. El acceso es gratuito para todos los investigadores adscritos a la institución.

Otras razones:

  1. No puede tomar imágenes en casa y luego compartirlas en Facebook : es mejor que las imágenes médicas no se tomen como selfies, sin una guía o causa médica explícita. Entonces los volúmenes son limitados.
  2. El etiquetado es difícil : los casos de esquina en el diagnóstico no se descubren hasta que se hayan agotado todas las demás explicaciones posibles. Entonces, lo que puede ser un tumor puede descartarse inicialmente como un lipoma, etc. Por lo tanto, sus etiquetas son, en el mejor de los casos, inciertas. No se sabe con mucha confiabilidad sin una biopsia.
  3. Las modalidades no son independientes de la física : un ultrasonido está muy alejado de la imagen de RMN. Diferentes artefactos, física diferente, características de tejido diferentes, etc. No se puede separar realmente la física de las imágenes. Por lo tanto, dos píxeles de ubicaciones comparables generados utilizando diferentes modalidades tienen interpretaciones físicas completamente diferentes.
  4. La instrumentación no es una mercancía : dos instrumentos de calidad de laboratorio tendrán rendimientos variables (profundidad de enfoque, frecuencia máxima, etc.). Esto es muy diferente a los arreglos CMOS modernos donde la imagen básica y la arquitectura h / w son más o menos las mismas.
  5. La experiencia / habilidad del operador es un factor masivo : dos operadores que toman imágenes de la misma ubicación, con el mismo instrumento, producirán dos imágenes distintas. Los radiólogos tienen diferentes técnicas y diferentes prácticas basadas en la parte del cuerpo a ser fotografiada. El mismo radiólogo ni siquiera producirá imágenes similares cada vez.
  6. Las variables son mucho mayores que simplemente muestrear una longitud de onda particular : su cuerpo es una bestia estadística. Todos somos muy parecidos pero muy diferentes. Esas diferencias menores significan que sus características cambian todo el tiempo, incluso dentro de una sola sesión. Los radiólogos no se dan cuenta de lo que están mirando mirando una sola imagen: deben tener en cuenta todos los parámetros (conocimiento previo de cómo se ven ubicaciones similares, habilidad para manejar sondas / equipos, etc.), lo que realmente ven; por ejemplo, cómo se comportan las partes anecoicas cuando se abordan desde un ángulo diferente.

Pero si busca, encontrará conjuntos de datos por docenas. Y recuerde que los cuerpos de imágenes ML se construyen raspando y luego redimensionando / procesando manualmente por personas que saben muy bien lo que están mirando. En general y fuera de los casos triviales, muy pocos radiólogos capacitados podrían incluso decir lo que están viendo sin contexto o antecedentes o información de la modalidad de adquisición.

Esto no es simplemente un problema de volumen o escala de datos. Me sorprendió ver el tipo de técnicas que los profesionales de la imagen médica usaban a mediados de la década de 2010. Pero dicho esto, las técnicas de imagen de pacientes no vivos o no vivos están tan avanzadas como pueden ser. El análisis de sangre / espectros es bastante sofisticado.

Entonces, algunos puntos:

  1. Hay muchos conjuntos de datos de imágenes de referencia / investigación disponibles bajo una variedad de términos de licencia. Algunos de estos son adecuados para jugar con ML / DL.
  2. Recolectar y conservar colecciones más grandes cuesta tiempo y esfuerzo. Aunque se permite compartir imágenes no identificadas para la investigación, la mayoría de las instituciones todavía tienen que seguir un proceso para hacerlo. Una de las preguntas suele ser algo así como, “¿por qué estás haciendo esta investigación?” Una respuesta de, “solo para poder publicar esto en Internet” no funcionará. Por lo general, tiene que ser un proyecto específico.
  3. La mayoría de las instituciones ahora han reconocido el valor de sus grandes colecciones de datos médicos, incluidas las imágenes. ¿Por qué harían que este valioso recurso esté disponible de forma gratuita? Muchas instituciones se están asociando con desarrolladores de ML / DL para colaborar en el trabajo y finalmente compartir las ganancias. Si cree que tiene un proyecto viable, sin duda podría dirigirse a una institución local (o nacional) para proponer una colaboración. Sin embargo, tenga en cuenta que, por lo general, la institución esperará algunos fondos para el tiempo y el esfuerzo que su equipo dedica al proyecto. Tendrás que hacer un argumento bastante convincente para que hagan todo eso solo por equidad.
  4. El verdadero problema no es tanto las colecciones de imágenes sino las anotaciones de imágenes. Muy pocas colecciones de imágenes están suficientemente anotadas para su uso en DL / ML, aunque esto está cambiando lentamente. Recuerde, solo hay unos 20000 radiólogos practicantes (quizás 30000 (?) Si incluye jubilados y aprendices) en los EE. UU. Capaces de anotar estas imágenes. Ganan, en promedio, alrededor de $ 200 por hora (suponiendo una semana laboral estándar, que no es el caso), por lo que es difícil (pronunciado ‘caro’) alejarlos de esas tareas para anotar lo que podrían ser unos pocos miles de imágenes para tú. Está sucediendo pero en proyectos organizados y financiados.
  5. Estoy obligado a decir también que aunque, eventualmente, habrá colecciones de anotaciones y sus imágenes, pocas están usando un formato estándar para las anotaciones (las imágenes están bien estandarizadas en DICOM (Página de inicio de DICOM) aunque exista uno (proyecto AIM : Confluence Mobile – National Cancer Institute – Confluence Wiki Así que, en el futuro, creo que, desafortunadamente, veremos colecciones patentadas de anotaciones que no se pueden hacer referencias cruzadas. Esto será desafortunado.

El conjunto de datos ideal para el aprendizaje automático de imágenes médicas

El conjunto de datos de imagen restauradora perfecto para una aplicación ML tiene un volumen de información, explicación, verdad y reutilización satisfactorios. En la base, cada protesta de información de imágenes terapéuticas contiene componentes de información, metadatos y un identificador. Esta mezcla habla de un “examen de imágenes”. Una reunión de objetos de información o conjunto de datos debe tener suficientes exámenes de imágenes para responder la consulta que se está preguntando. Para aumentar el avance del cálculo, tanto el conjunto de datos como cada examen de imágenes deben representarse y nombrarse con precisión. partes de imágenes médicas La verdad fundamental, la (s) etiqueta (s) de caracterización de cada examen de imágenes, debe ser tan exacta y reproducible como podría esperarse bajo las circunstancias. Además, un conjunto de datos perfecto es Findable, Accesible, Interoperable y Reutilizable (FAIR) [2]. En los próximos segmentos, describiremos los aspectos más destacados de los conjuntos de datos de aprendizaje automático.