¿Necesito visión artificial para leer texto simple en imágenes?

Bueno, depende Podrías usar algunos de los trabajos anteriores y construir algo combinando las mejores características. Por ejemplo, podría usar un OCR ( reconocimiento óptico de caracteres ) para realizar esta tarea.

Otro ejemplo en MATLAB: Detecta y reconoce texto automáticamente en imágenes naturales

En este otro ejemplo, la detección de bordes se usa para detectar caracteres:

¿Podría el Monte Carlo híbrido ser una forma efectiva de realizar búsquedas de hiperparámetros en Deep Learning?
¿Una máquina aprende una ciencia o un arte?
¿Por qué el aprendizaje del 'lenguaje ensamblador y máquina' se enfatiza menos en las universidades en comparación con el aprendizaje de lenguajes de programación generales?
¿Por qué la distribución previa no tiene mucho impacto en la distribución posterior cuando tenemos muchos datos?
¿Qué es una transformación de características en el aprendizaje automático?

Un artículo académico sobre este https://cs.stanford.edu/~acoates…

Aquí hay un conjunto de datos [1]: Texto COCO: Conjunto de datos para detección y reconocimiento de texto

Finalmente, si quieres leer más, aquí hay un Ph.D. reciente. Tesis para el aprendizaje profundo para la detección de texto en imágenes: https://www.robots.ox.ac.uk/~vgg…

Si está más interesado, eche un vistazo a este video:

Notas al pie

[1] https://arxiv.org/pdf/1601.07140…

Aprendizaje automáticovisión artificial

¿Existe alguna implementación del modelo de atención en el flujo tensorial?

En el aprendizaje profundo, ¿cómo convertir una oración o documento en un vector binario (flujo de 0 y 1)?

¿Por qué diverge un LSTM con activaciones ReLU?

¿Cuáles son los componentes básicos del reconocimiento de voz desde el punto de vista DSP?

¿Qué es lo que más te gusta del aprendizaje automático?

¿Por qué la página de inicio de amazon.in no está encriptada con SSL Digital Certificate?

Si tiene algunos conceptos básicos sobre programación, diría que no necesita aprender visión artificial para construir esta aplicación básica. Pero aún así, le recomendaría que comprenda algunos conceptos básicos sobre cómo las computadoras ‘ven’ las imágenes. Eso sería importante para la depuración o para realizar más mejoras en su código.

Como dijo anteriormente Anže Rupnik, Learning OpenCV de O’Reilly es bueno para principiantes . También puede encontrar muchos cursos en línea y otros materiales en Internet. Para su aplicación, le recomiendo el sitio web de Adrian Rosebrock. Ya ha preparado una publicación sobre Cómo construir un escáner de documentos móvil Kick-Ass en solo 5 minutos . ¿Qué tan asombroso es eso? Espero que te ayude.

Anže Rupnik

Para hacer una aplicación simple, no necesita aprender visión por computadora. Ya hay varias bibliotecas que toman imágenes como entrada y le devuelven los caracteres reconocidos. Estas bibliotecas funcionan bien en imágenes de documentos de bastante buena calidad. Por lo tanto, solo necesita saber cómo incorporar y usar esas bibliotecas. Al igual que en Python, hay una biblioteca llamada ” pytesseract “. Encontrará varias otras bibliotecas para realizar su tarea.

Mona Jalal

Lo que está buscando es OCR (reconocimiento óptico de caracteres). Si está creando una aplicación para Android, creo que hay un contenedor de OpenCV para Android Studio.

La parte más importante al hacer OCR es asegurarse de que los caracteres que intenta leer sean diferentes entre sí. Por ejemplo, el número 0 se puede confundir con la letra O, B con 8, I con 1, etc.

Anže Rupnik

El reconocimiento de caracteres es de hecho visión por computadora. El problema con el reconocimiento de caracteres es la gran variedad de fuentes y las que desearía cubrir. Esto se vuelve especialmente difícil si desea leer texto escrito a mano. Sugiero buscar documentos de reconocimiento de caracteres y programas de código abierto. Hay un montón de ellos. También algunos principios básicos sobre la visión por computadora no harían daño para empezar.
Aprender OpenCV de O’Reilly es bueno para principiantes.

Anže Rupnik

More Interesting

¿Cuáles son las diferencias entre los modelos pre-entrenados y entrenados?

¿Cómo pueden beneficiarse los MOOC de sus datos?

¿Qué tan útil es el aprendizaje profundo para problemas P> N?

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Cuáles son las aplicaciones del error cuadrático medio?

¿Cuáles son algunos métodos de clasificación de series temporales?

Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

En la regresión cuadrática, ¿por qué tengo que mantener una variable y su aumento exponencial en el mismo modelo?