Actualmente estoy trabajando en una aplicación de visión artificial en medicina. Tengo que explicar esto casi todos los días.
Si considera lo que sucede en la visión por computadora, ahora se trata básicamente del reconocimiento de funciones. Comenzando con OCR. Entonces, ¿de qué es esta foto? ¿Hay caras en la foto? Rostros de personas que conozco? ¿Es similar a otras fotos?
No se trata de manipular imágenes (hemos podido hacerlo fácilmente durante 30 años), se trata de extraer información de ellas, lo que significa reconocimiento de características.
- ¿Qué problemas científicos son los más adecuados para la computación paralela?
- ¿Cuáles son los documentos fundamentales sobre detección comprimida?
- ¿Cuáles son los temas de investigación actuales en informática en la nube?
- ¿Los algoritmos tienen aplicaciones fuera de la informática?
- ¿Cómo puedo obtener una beca para presentar mi trabajo en una conferencia internacional de renombre?
Considere el caso especial de OCR y CAPTCHA: comandos de Wikipedia. Ninguna parte del reconocimiento de características de imagen ha sido objeto de una investigación tan intensa como OCR. Y es un conjunto bastante limitado de características: 26 letras minúsculas, 26 mayúsculas y 10 números. Sin embargo, ni siquiera pueden extraer las características correctas de los códigos Captcha.
Casi todos los días, algún médico me mostrará un jpeg de una cosa cancerosa u otra, y me preguntará si puedo escribir un programa para encontrar estas características en las imágenes. Digo cómo sabes que es una cosa u otra cancerosa, y dicen que parece una. Y luego señalan que también pueden verse completamente diferentes a cómo se ve en esa imagen. Les digo que solo les parece una cosa u otra cancerosa porque fueron a Uni durante 7 años para aprender cómo se ven, y no es razonable esperar que mi programa pueda hacer esto.
Luego señalo esta caricatura colgando sobre mi espacio de trabajo exactamente por esta razón: