¿Cuál es la mejor forma y la más barata de hacer OCR en la nube?

Los proveedores de nube notables para OCR son:

  1. Servicios cognitivos – Aplicaciones de inteligencia | Microsoft Azure
  2. API de resto de visión artificial y procesamiento de medios | PixLab

Solía ​​trabajar para PixLab, así que estoy bastante familiarizado con su API de OCR. Debería proporcionarle muy buenos resultados dada una imagen de buena calidad (puede preprocesar sus imágenes de entrada utilizando sus API si lo desea).

El PixLab OCR alimenta la famosa aplicación I2S – Image to Speech si quieres verla en acción.

Aquí hay un código de muestra de Python que utiliza el punto final / ocr proporcionado por PixLab:

solicitudes de importación
importar json
# Dada una imagen con caracteres legibles para humanos.
# Detecta el idioma de entrada y extrae contenido de texto desde allí.
# https://pixlab.io/#/cmd?id=ocr para obtener información adicional.
req = request.get (‘https://api.pixlab.io/ocr’,params= {
‘img’: ‘http: //q.miximages.com/50500/Optical Character Recognition / Confucius-Quote.jpg’,
‘orientación’: Verdadero, # Orientación correcta del texto
‘nl’: Verdadero, # emite nuevas líneas si las hay
‘key’: ‘My_PixLab_Key’
})
respuesta = req.json ()
si responde [‘estado’]! = 200:
print (respuesta [‘error’])
más:
print (“Idioma de entrada:” + respuesta [‘lang’])
print (“Salida de texto:” + respuesta [‘salida’])

  • Repositorio Github

También estoy buscando una respuesta a su pregunta también. Hace poco estuve hablando con algunos desarrolladores que calificaron altamente a Abbyy Cloud OCR SDK por su precisión pero a un alto precio (Planes y precios). Usted puede hacer una prueba limitada de forma gratuita como desarrollador. El costo comienza cuando entra en modo de producción, a menos que sea un estudiante y pueda calificar para el SDK de OCR gratuito para estudiantes.

La competencia de Abbyy es OmniPage, pero no parecen ofrecer un SDK en la nube solo una API de aplicación nativa (OmniPage CSDK | OCR Document Capture SDK | OCR for Developers | Nuance), pero me puse en contacto con ellos para confirmar. ¡Puede probar su SDK en Bienvenido al portal de servicios en la nube de OmniPage!

También me encontré con esta revisión del año pasado: el mejor software de OCR en línea para convertir imágenes a texto y parece que la respuesta podría ser OnlineOCR – SOAP y REST Cloud API. La prueba gratuita de 30 días permite 25 artículos gratis por día. Sin embargo, no está claro quién está detrás del servicio, por lo que no le enviaría ningún documento confidencial.

Actualización: hay un paquete de suscripción de Abbyy disponible en Azure que le ofrece 100 páginas al mes de forma gratuita: el servicio SDK ABBYY Cloud OCR en Microsoft Azure Marketplace.

Como señaló en su pregunta y otros también lo han puesto en sus respuestas, Abbyy ofrece un servicio de SDK de OCR en la nube bastante bueno, pero hay una serie de desafíos con eso:

  1. La latencia de red o la sobrecarga en el uso de una extracción en la nube es bastante. Agrega más de 11 a 15 segundos de sobrecarga de transferencia de imágenes. No estoy seguro si el rendimiento es su preocupación.
  2. Abbyy deja mucho trabajo de extracción de OCR que debe realizar una vez que se lee el texto. Ahí es donde va a entrar su gran gasto, no estoy seguro de si eso se aplica a su caso particular.
  3. No hay aprendizaje contextualizado en la oferta de OCR. Lo que significa que si extrae información repetidamente de dichos documentos fiscales, la extracción no se vuelve más inteligente a medida que la usa.

Por lo tanto, debe pensarlo un poco más antes de decidirse por la ruta del servicio en la nube.

Si el costo es su principal preocupación, entonces también puede considerar gastar una gran cantidad de dinero por adelantado y realizar una implementación local. Lo bueno de eso es que sus costos operativos se vuelven mucho más manejables a medida que escala.

Hay algunas compañías que ofrecen servicios de extracción de OCR de aprendizaje automático administrado en la nube, es posible que desee obtener una cotización de ellos. Por cierto, también mencionó que solo necesita extraer un número de 4 dígitos de una imagen. Este es un caso de uso muy simple, Abbyy podría ser una exageración para este propósito. Puede hacerlo bien con Tesseract.

Espero que esto ayude.

Una de las mejores herramientas de servicios en línea de OCR para extraer texto de imágenes

  1. OCR en línea usando Google Drive
  2. convertir PDF e imágenes escaneadas a Word, JPEG a Word
  3. Aplicación gratuita Photposcan de Microsoft
  4. OCR en línea gratuito: convierta JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu a texto
  5. http://Freeocr.Com

Fuente: – Las 21 mejores herramientas de servicios en línea de OCR para extraer texto de imágenes

Tesseract es una de las bibliotecas más precisas disponibles para OCR. Sí, no está disponible como un servicio de primera clase, sino como una biblioteca. Sin embargo, hay una buena respuesta en stackoverflow para configurar tesseract en aws lambda aquí: Tesseract OCR en AWS Lambda a través de virtualenv

La visión de Google puede ayudar.

Si solo hace detección de texto, le costará alrededor de $ 1.50 / 5 millones de imágenes, no puede ir más barato que eso. Puede probar algunas imágenes en el siguiente enlace y verificar si funciona para usted.

Vision API – Análisis de contenido de imagen | Google Cloud Platform

No estoy seguro de cómo haría la implementación completa, pero Google Drive hace OCR en todas las imágenes almacenadas en él de forma predeterminada. Puede usar las API de búsqueda en Drive para buscar el contenido que se ha ocultado.