Cómo detectar texto / imágenes en una imagen de documento

Hay cuatro formas de lograr esta tarea con un resultado definitivo y una alta precisión. Como me especializo en soluciones comerciales para diversas tareas de procesamiento de imágenes y captura de datos, mi kit de herramientas consta de herramientas comerciales de alta calidad, pero quizás se puedan lograr los mismos métodos con otras herramientas. También supongo que esta tarea debe realizarse para un gran volumen de imágenes, por lo que todas mis respuestas suponen un procesamiento por lotes automatizado.

Opción 1. Detectar texto a través de OCR, luego redactarlo. Utilizando un potente reconocimiento óptico de caracteres, como la API web OCR-IT (API OCR | Convertir imágenes en texto electrónico | Software OCR), procese esta imagen en XML. El resultado XML contendrá todo el texto detectado y sus coordenadas para cada palabra. Luego, un script puede tomar esas coordenadas y blanquear todas las áreas, dejando efectivamente solo las imágenes. Configuración e implementación: unas pocas horas. Costo: centavos por página.

Opción 2. Detectar imágenes, luego extraerlas. Usando el mismo proceso que en la opción # 1, pero los objetos de imagen de destino, cuyas coordenadas también se proporcionarán en el XML. Usa esas coordenadas y extrae estas imágenes. Configuración e implementación: unas pocas horas. Costo: centavos por página.

Opción 3. Detecte imágenes como objetos y extráigalas, método listo para usar, no requiere programación. Utilice un paquete comercial de captura de datos / extracción de contenido FlexiCapture (procesamiento inteligente de formularios y captura de datos ABBYY FlexiCapture) detecte objetos de imagen por tipo de objeto y / o tamaño. El software guarda todas las imágenes detectadas en archivos individuales separados. Configuración e implementación: 1-2 horas. Costo: varios miles para la compra inicial de FlexiCapture.

Opción 4. Subcontratar a una oficina de servicios especializados. Usando el mismo software mencionado en el n. ° 3, pero permita que otra persona que ya posee FlexiCapture ejecute el proyecto por usted. Tengo varios socios que actualmente poseen FlexiCapture y pueden ejecutar esta extracción por usted. Configuración e implementación: ninguna, realizada por un experto externo. Costo: algo por página.

No dude en ponerse en contacto conmigo si tiene alguna pregunta.

AlgoritmosAprendizaje automáticoArtificialProcesamiento de imágenesReconocimiento óptico de caracteresRedes neuronales artificialesVisión