¿Cuál es el proceso de un algoritmo de red neuronal convolucional para un OCR?

Es bastante sencillo de describir, pero difícil de implementar en la práctica. Mi comprensión actual es que aplicar una CNN a toda la página es una pérdida de tiempo. Lo que quieres es:

Aplique MSER o cualquier algoritmo relevante a la imagen para identificar zonas de texto.
Extraer dichas zonas de texto.
Use un CNN en la zona de texto extraído para obtener características.
Alimentar dichas características en un LSTM bidireccional
Usando la clasificación temporal conexionista, cree el texto resultante.

Para agregar algo de peso a mi respuesta, así es como lo hizo dropbox: crear una tubería moderna de OCR usando la visión por computadora y el aprendizaje profundo

Y si quieres implementarlo:

Documento: [1507.05717] Una red neuronal entrenable de extremo a extremo para el reconocimiento de secuencias basado en imágenes y su aplicación al reconocimiento de texto de escena
Implementación de trabajo con Torch: bgshih / crnn
Mi implementación (inacabada) con TensorFlow: Kankroc / crnn

Esos enlaces solo describen la parte de la red neuronal del OCR. Para el MSER, puede analizar la implementación de OpenCV, que es buena pero lenta según el equipo de Dropbox. Existe la API base en C ++ y los enlaces de Python. Para ver un ejemplo sobre cómo usar MSER con Python, puede consultar aquí: Kankroc / opencv-mser

AlgoritmosAprendizaje automáticoReconocimiento óptico de caracteresRedes neuronales convolucionales

Related Content

¿Cuáles son las aplicaciones prácticas de los diversos algoritmos que estudian los estudiantes de CS en Data Structures?

¿Cómo funciona el algoritmo de búsqueda de ciclo de Floyd? ¿De qué manera mover la tortuga al comienzo de la lista vinculada, mientras se mantiene a la liebre en el lugar de reunión, seguido de mover un paso a la vez, hace que se encuentren en el punto de inicio del ciclo?

¿Qué prueba de primalidad se usa en las aplicaciones de software convencionales?

¿Cómo funcionan los algoritmos genéticos en la programación?

¿Cuál es la forma más eficiente de restar una lista de otra?

Cómo ordenar una matriz de vectores de pares, es decir, vector <par v [N], en C ++

Cómo recibir datos de la nube usando Arduino

More Interesting

¿Cuáles son las ventajas y desventajas de la búsqueda A * y el algoritmo de Dijkstra? ¿Cuándo se debe usar cada uno?

Cómo encontrar el día en una fecha en particular

¿Cuáles son los principales usos de un diagrama de flujo?

¿Qué es el algoritmo de Wagner y Fischer y cuál es su código de muestra en C ++?

Cómo encontrar si un número dado es primo o no

¿Cuáles son algunos buenos libros para aprender y practicar estructuras de datos y algoritmos?

Dado un problema, ¿cómo puedo decidir si usar un enfoque codicioso o dividir y conquistar?

En los lenguajes de programación donde una matriz crece dinámicamente en tamaño, ¿no es una preocupación porque es O (n) complejidad de tiempo?

Si hipotéticamente encontré un algoritmo que genera rendimientos comerciales al 100% anualmente, ¿qué debo hacer con él?

Cómo encontrar un algoritmo eficiente para un problema

Cómo determinar la eficiencia de un programa de retroceso

¿Por qué no ha habido sesiones sobre los cursos de Algoritmos I y II de Robert Sedgewick en Coursera durante tanto tiempo?

¿Algún algoritmo de aprendizaje profundo quedará obsoleto algún día con los algoritmos tradicionales? ¿O los algoritmos de aprendizaje profundo solo son adecuados para problemas específicos?

¿Qué tipo de algoritmo SLAM utiliza Teslas? ¿O incluso están usando algoritmos SLAM?

¿Qué algoritmo de extracción de características es adecuado para el reconocimiento facial basado en video?

Web Analytics