¿Cuáles son los algoritmos de aprendizaje profundo que pueden corregir los errores de reconocimiento óptico de caracteres (OCR)?

Espero que encuentren útiles los recursos de esta competencia de Kaggle sobre la eliminación del ruido de las páginas del libro para el posterior escaneo de OCR. El foro de la competencia mencionó las dos herramientas empleadas para lograr una alta calidad para una base de datos de imágenes y canales exactos de ganadores de la competencia con código de programación incluido.

Los competidores encontraron útiles varios enfoques:

  • codificadores automáticos totalmente conectados (individuales y apilados)
  • red basada en parches para segmentación
  • métodos simples para la separación de fondo / primer plano.

Sin embargo, en el momento de la competencia, el aprendizaje por refuerzo y las redes neuronales recurrentes no eran bien conocidas y, creo, no han sido probadas por los participantes de la competencia. Las redes totalmente convolucionales para la segmentación también están a favor ahora en comparación con los enfoques de red basados ​​en parches.

De acuerdo, parece que acabas de enumerar un montón de algoritmos populares. Los autoencoders y DBMs de eliminación de ruido apilados son prácticamente inútiles. El entrenamiento adversario y el aprendizaje de refuerzo podrían en teoría tener utilidad, pero en la práctica probablemente no serán tan útiles para este caso de uso.

Es probable que las redes neuronales recurrentes sean muy útiles.

Además, ¡no olvide el motor de OCR en sí mismo, ConvNets!

More Interesting

¿Estamos presenciando las primeras etapas del uso de ML en la industria o cree que la aplicación de ML hacia la industria ya está muy extendida?

¿Hay un equivalente a Rosalind en el aprendizaje automático?

¿Qué significa la afluencia de IA y Machine Learning en productos tecnológicos para los diseñadores de UX?

¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?

¿Qué empresas / startups en India están contratando para trabajos de ciencia de datos, análisis de datos o aprendizaje automático?

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Cómo asociaría un producto con una categoría y subcategoría basada en la descripción de texto del producto?

¿Qué es un modelo de mezcla de Bernoulli?

¿Cuál es la mejor manera de manejar un modelo multitarea si las etiquetas de datos de capacitación tienen NA, es decir, no se analizaron todas las muestras para todas las tareas?

¿Hay un grupo de investigadores trabajando en la síntesis de texto EEG (conversión de pensamiento a texto)?

¿Cuál es la diferencia entre regresión logística y factorización matricial?

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

¿Cuál es una buena forma de buscar artículos en visión artificial y aprendizaje automático?

¿Cuál es la explicación de la fórmula de compensación de Bias Variance?

Cómo construir una aplicación de predicción de flujo de efectivo personal con extractos bancarios utilizando el aprendizaje automático