Cómo detectar imágenes en un documento de Word escaneado

En general, eso no será fácil, pero aquí hay algunas ideas:

1. Primero, normalizará su escaneo (es decir, encontrará bordes, hará que la perspectiva se transforme, normalice el contraste, etc.). La mejor manera de hacerlo (si no puede usar OCR comercial) es usar OpenCV. Aquí hay un ejemplo relevante: Extraer texto de una imagen usando Ocropus

2. Segundo, debes detectar el texto y segmentar tu página. Dependiendo de sus objetivos, puede reinventar la rueda patentada y escribir su propio algoritmo, o usar herramientas de código abierto como esta: tmbdev / ocropy

3. Después de tener a mano los bloques de texto, elimínelos (al menos, lógicamente). Lo que queda podría ser tus fotos, si es que existen. Y debe realizar comprobaciones de complejidad simples para saber que realmente maneja la imagen, por ejemplo, calcular el índice de Hurst (exponente de Hurst). Es un hecho bien conocido que las imágenes reales tendrán dependencias muy complejas de corto y largo alcance, y el índice Hurst le dará una pista de si realmente tiene un objeto complejo o simple.