Si tuviera que abordar esta tarea, probablemente escribiría alguna función que pueda distinguir entre regiones de imagen y regiones de texto y luego borrar las regiones de imagen. Y luego, alimentaría la imagen resultante en un OCR.
Probablemente intente explotar algunos conocimientos que tengo sobre los tipos de documentos que puedo escanear. Por ejemplo, si se sabe que los documentos escaneados tendrán una impresión bastante legible, o no tendrán demasiado desorden, o tendrán un formato específico, entonces esto se puede usar en esta función. Además, se utilizarían otras heurísticas simples para ver la densidad de píxeles dentro de la ventana. Si las imágenes tienen bordes, algunas técnicas de detección de bordes pueden ser útiles para eliminar imágenes. Pero, todas estas suposiciones se basarían en algún conocimiento previo sobre la tarea.
No usaría ningún truco de ML explícitamente para resolver este tipo de problema.
- ¿Qué piensan los pequeños equipos de ciencia de datos sobre la plataforma Dato y el pensamiento de Carlos Guestrin detrás de la democratización del aprendizaje automático?
- Si quiero trabajar en Machine Learning e Inteligencia artificial, ¿debería especializarme en Matemáticas / CS o Estadísticas / CS?
- ¿Cómo se usa el análisis de componentes principales en el procesamiento del lenguaje natural?
- ¿Cuál es la diferencia entre machine learning y IOT?
- ¿Qué método aparte del análisis de sentimientos puedo usar para obtener el puntaje de una oración?
Sin embargo, debo agregar que no tengo experiencia en hacer ninguna tarea de este tipo específicamente. Entonces, puedo estar equivocado. Y, esto es solo una sugerencia sobre cómo lo haría.