¿Necesito visión artificial para leer texto simple en imágenes?

Bueno, depende Podrías usar algunos de los trabajos anteriores y construir algo combinando las mejores características. Por ejemplo, podría usar un OCR ( reconocimiento óptico de caracteres ) para realizar esta tarea.

Otro ejemplo en MATLAB: Detecta y reconoce texto automáticamente en imágenes naturales

En este otro ejemplo, la detección de bordes se usa para detectar caracteres:

Un artículo académico sobre este https://cs.stanford.edu/~acoates…

Aquí hay un conjunto de datos [1]: Texto COCO: Conjunto de datos para detección y reconocimiento de texto

Finalmente, si quieres leer más, aquí hay un Ph.D. reciente. Tesis para el aprendizaje profundo para la detección de texto en imágenes: https://www.robots.ox.ac.uk/~vgg…

Si está más interesado, eche un vistazo a este video:

Notas al pie

[1] https://arxiv.org/pdf/1601.07140…

Si tiene algunos conceptos básicos sobre programación, diría que no necesita aprender visión artificial para construir esta aplicación básica. Pero aún así, le recomendaría que comprenda algunos conceptos básicos sobre cómo las computadoras ‘ven’ las imágenes. Eso sería importante para la depuración o para realizar más mejoras en su código.

Como dijo anteriormente Anže Rupnik, Learning OpenCV de O’Reilly es bueno para principiantes . También puede encontrar muchos cursos en línea y otros materiales en Internet. Para su aplicación, le recomiendo el sitio web de Adrian Rosebrock. Ya ha preparado una publicación sobre Cómo construir un escáner de documentos móvil Kick-Ass en solo 5 minutos . ¿Qué tan asombroso es eso? Espero que te ayude.

Para hacer una aplicación simple, no necesita aprender visión por computadora. Ya hay varias bibliotecas que toman imágenes como entrada y le devuelven los caracteres reconocidos. Estas bibliotecas funcionan bien en imágenes de documentos de bastante buena calidad. Por lo tanto, solo necesita saber cómo incorporar y usar esas bibliotecas. Al igual que en Python, hay una biblioteca llamada ” pytesseract “. Encontrará varias otras bibliotecas para realizar su tarea.

Lo que está buscando es OCR (reconocimiento óptico de caracteres). Si está creando una aplicación para Android, creo que hay un contenedor de OpenCV para Android Studio.

La parte más importante al hacer OCR es asegurarse de que los caracteres que intenta leer sean diferentes entre sí. Por ejemplo, el número 0 se puede confundir con la letra O, B con 8, I con 1, etc.

El reconocimiento de caracteres es de hecho visión por computadora. El problema con el reconocimiento de caracteres es la gran variedad de fuentes y las que desearía cubrir. Esto se vuelve especialmente difícil si desea leer texto escrito a mano. Sugiero buscar documentos de reconocimiento de caracteres y programas de código abierto. Hay un montón de ellos. También algunos principios básicos sobre la visión por computadora no harían daño para empezar.
Aprender OpenCV de O’Reilly es bueno para principiantes.

More Interesting

¿Cuáles son las diferencias entre los modelos pre-entrenados y entrenados?

¿Cómo pueden beneficiarse los MOOC de sus datos?

¿Qué tan útil es el aprendizaje profundo para problemas P> N?

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Cuáles son las aplicaciones del error cuadrático medio?

¿Cuáles son algunos métodos de clasificación de series temporales?

Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

En la regresión cuadrática, ¿por qué tengo que mantener una variable y su aumento exponencial en el mismo modelo?

¿Cómo se puede aplicar el aprendizaje profundo al procesamiento de imágenes subacuáticas?

¿Cómo construye Apple su red neuronal para el nuevo iPhone X Face ID? Los usuarios solo registran sus caras una vez cuando configuran el teléfono inicialmente, entonces, ¿cómo podría esa foto de los usuarios ser un conjunto de entrenamiento lo suficientemente grande como para entrenar la red neuronal?

¿Cuáles son las mejores prácticas en torno al aprendizaje automático y los sistemas de recomendación para sitios de trabajo?

Cómo hacer que un estudiante de pre-varsity entienda la diferencia entre estadística paramétrica y no paramétrica

¿Se aplica Occam's Razor en el aprendizaje automático?