¿Cuál es la diferencia entre la visión médica por computadora y la visión general por computadora?

Actualmente estoy trabajando en una aplicación de visión artificial en medicina. Tengo que explicar esto casi todos los días.

Si considera lo que sucede en la visión por computadora, ahora se trata básicamente del reconocimiento de funciones. Comenzando con OCR. Entonces, ¿de qué es esta foto? ¿Hay caras en la foto? Rostros de personas que conozco? ¿Es similar a otras fotos?

No se trata de manipular imágenes (hemos podido hacerlo fácilmente durante 30 años), se trata de extraer información de ellas, lo que significa reconocimiento de características.

Considere el caso especial de OCR y CAPTCHA: comandos de Wikipedia. Ninguna parte del reconocimiento de características de imagen ha sido objeto de una investigación tan intensa como OCR. Y es un conjunto bastante limitado de características: 26 letras minúsculas, 26 mayúsculas y 10 números. Sin embargo, ni siquiera pueden extraer las características correctas de los códigos Captcha.

Casi todos los días, algún médico me mostrará un jpeg de una cosa cancerosa u otra, y me preguntará si puedo escribir un programa para encontrar estas características en las imágenes. Digo cómo sabes que es una cosa u otra cancerosa, y dicen que parece una. Y luego señalan que también pueden verse completamente diferentes a cómo se ve en esa imagen. Les digo que solo les parece una cosa u otra cancerosa porque fueron a Uni durante 7 años para aprender cómo se ven, y no es razonable esperar que mi programa pueda hacer esto.

Luego señalo esta caricatura colgando sobre mi espacio de trabajo exactamente por esta razón:

informáticaInvestigación enVisión por ordenador