Si la IA de aprendizaje automático no puede explicar una respuesta, ¿se puede ‘confiar’ en un diagnóstico médico?

Esta es una pregunta muy importante y merece una gran atención.

Las máquinas inteligentes (IM) son capaces de realizar un trabajo increíble. Pueden ser entrenados de la misma manera que un humano para hacer algunas de las cosas que los humanos pueden hacer. Lo hacen bien y en algunos casos lo hacen mejor.

Una red neuronal (NN) ha sido entrenada recientemente para diagnosticar neumonía. En las pruebas de imágenes de archivo, funcionó mejor que un panel de radiólogos capacitados (especialistas en lectura de rayos X), por lo que en el caso específico de diagnosticar neumonía, la máquina es mejor. Aunque estuvo mal algunas veces, fue mejor que los humanos.

¿Cómo lo hizo? ¿Realmente importa?

Yo diría que la respuesta es ‘no’ y que eso se está volviendo cada vez más importante a medida que desarrollamos mensajes instantáneos que no están sujetos al ‘problema de la sala china’: no ​​se puede dar a un humano el mismo conjunto de instrucciones en un pedazo de papel y obtener el mismo resultado (aunque muy lentamente)

Lo que realmente importa es el resultado. Después de todo, ¿a quién preferirías leer tu tomografía computarizada? Yo, un médico de cabecera que sabe bastante sobre anatomía, examinó algunas tomografías computarizadas hace aproximadamente una década y está dispuesto a ir, o un especialista certificado. ¿Podría alguno de nosotros explicar cómo nuestros cerebros hicieron lo que hicieron? ¿Qué pasaría si pudiera pero el especialista no podría, mi respuesta sería mejor? Por supuesto no.

Lo mismo se aplica a IM o NN que realizan trabajos de diagnóstico. Yo diría que el mejor sistema debería hacer el diagnóstico siempre que sea posible y si eso es un desastre de proteínas, un NN o un IM real, no hay diferencia. Me molesta citar un poco de Heinlein un poco fuera de tema: “Importa si obtienes respuesta en microsegundos o milisegundos, siempre y cuando sea correcto, nyet?” (La luna es una amante dura)

Ahora tenemos que lidiar con muchos problemas. NN puede, por ejemplo, realizar bien tareas individuales, pero cuando se trata de radiografías, necesita una para pnuemonia, una para cáncer de pulmón, una para fracturas, una para neumotórax, una para enfisema, una para fibrosis intersticial, etc. En términos de ser agentes de diagnóstico prácticos, se caen. Sin embargo, IM puede (potencialmente) hacer todo esto en un espacio diagnosticando todo. Es inevitable que los algoritmos creados para hacer esto sean tan complejos que sean tan inexplicables como el cerebro humano, pero cumplirán el criterio más importante de todos. Van a trabajar.

Es falso decir que no puede explicar cómo se diagnostica.

El programa MYCIN desarrollado en STANFORD podría diagnosticar infecciones bacterianas mejor que los médicos generales. Podría hacerlo porque fue alimentado con reglas si-entonces por médicos experimentados y podría subir de nivel y decir cómo hizo las cosas y bajar de nivel y decir por qué está haciendo las cosas.

Sin embargo, los resultados obtenidos tienen una puntuación que puede ser la puntuación F1, la precisión de la clasificación y la matriz de confusión de análisis. Más la puntuación de F1 más precisa y precisa que es. Tenga en cuenta que la precisión y la exactitud son diferentes. Según este puntaje, los expertos pueden usar más experiencia para validarlo y realizar más tareas.

Si tiene un historial comprobado, entonces no sería ético no hacerlo.

La neurología humana es heterofenomenológica. Lo que eso significa es que muy a menudo tomamos una decisión y luego nuestros cerebros simplemente inventan una mierda después del hecho de explicar la “decisión” que tomamos. A menudo nos engañamos a nosotros mismos para pensar “Vi esto y luego aquello y pensé esto”. Puede ser cierto, puede que no. Puede haber habido señales sutiles de las que nunca estuvimos conscientes.

Si un humano puede señalar de manera fácil y confiable los signos y síntomas que conducen a un diagnóstico, entonces ya existe un sistema experto que podría haberlo hecho igual de bien. Los sistemas entrenados no tendrán una serie de afirmaciones preescritas si-entonces, pero eso no significa que no pueda ser igual, si no más capaz de captar las mismas señales sutiles que un humano podría tener. Pueden estar invisiblemente incrustados en los pesos de una red neuronal, y ningún humano podría descifrarlos, como tampoco un escáner cerebral de House podría decirnos cómo toma sus decisiones.

Solo se puede confiar en los registros empíricos, y cualquier sistema de IA tendrá que probarse a sí mismo antes de confiar implícitamente.

El algoritmo de aprendizaje automático no puede “explicar” un resultado; el ingeniero de aprendizaje automático debería poder explicar por qué se llega a una respuesta y cuánto se debe confiar. En otras palabras, no es responsabilidad del algoritmo explicar por qué hace lo que hace; Es responsabilidad del creador del algoritmo crear algoritmos confiables.

Si no confías en un algoritmo, ve y aprende cómo funciona, para que puedas probar que está equivocado.