¿Se ha resuelto el problema de reconocimiento de caracteres escritos a mano?

Para cualquier problema computacional, hay muchas formas diferentes de evaluar la calidad de la solución. Incluyen, pero no se limitan a:
1. precisión
2. velocidad
3. Robustez
4. Escalabilidad
5. Interpretabilidad / Transparencia

1. Precisión: la tasa de error del reconocimiento de caracteres escritos a mano ha estado por debajo de medio punto porcentual desde 2004. Wikipedia tiene una tasa de error de 0.21% ahora Wikipedia: MNIST

2. Velocidad: a medida que se utilizan algoritmos más complejos como las redes neuronales, la velocidad de cómputo tiende a aumentar; sin embargo, los análisis pueden ejecutarse distribuidos o en paralelo, lo que también reduce la velocidad. Además, con el análisis del lado del servidor, aplicaciones como Google Goggles ofrecen un reconocimiento razonable de imágenes en segundos.

3. Robustez: se refiere a la tolerancia a fallas de los algoritmos. Por ejemplo, cuando la imagen se ve comprometida, hay problemas de desenfoque o de fondo, etc. Un ejemplo clásico de dónde la robustez es un problema es el reconocimiento automático de matrículas. Según Parking Trend International, si bien los proveedores cuentan con una tasa de error del 2%, los clientes informaron una precisión del 6% -10% en Wikipedia 2008: reconocimiento automático de matrículas

4. Escalabilidad: se refiere a la facilidad con que el modelo creado se puede aplicar a una cantidad creciente de datos. Consideraría que OCR es escalable. Considere el gran tamaño del conjunto de datos Ngram de los libros de Google.

5. Interpretabilidad / Transparencia: se refiere a cuán explicables son los resultados, usando la lógica. Esto realmente no cuenta en este contexto porque realmente no nos importa cómo llegó el sistema a la respuesta, solo necesitamos un período de transcripción perfecto.

Nadie puede decir si está resuelto o no, porque nadie sabe qué tipo de datos se pueden encontrar. Si está hablando de un conjunto de datos MNIST, entonces sí, es mejor que el rendimiento humano en ese conjunto de datos.

Alex Graves (Página de inicio de Alex Graves) intentó un reconocimiento de escritura a mano más interesante, que funcionó bien. Puede ver su trabajo, aunque este no es el nivel de caracteres sino el de palabra / línea.

El reconocimiento de caracteres escritos a mano ha hecho un gran progreso en estos años, esa es la razón por la cual tantas herramientas PDF tienen una función OCR incorporada (Google Docs, Eevenote, Adobe), también hay muchas herramientas OCR gratuitas en línea y software de escritorio OCR (ABBYY) FineReader, Redris, OCRWizard, etc.) disponibles.

La precisión del reconocimiento también mejora mucho, incluso se puede reconocer texto borroso escrito a mano. Dado que algunas herramientas OCR permiten al usuario ajustar manualmente el archivo para obtener un resultado preciso. Incluso las características extendidas, como el soporte de cualquier PDF (escaneado y nativo), imágenes en una amplia gama de idiomas. Al utilizar una herramienta de OCR, incluso puede importar la información de la tarjeta de visita a un programa de base de datos.

Cualquier método automatizado que se desarrolle para reemplazar el trabajo realizado por humanos, puede que nunca se resuelva por completo. El problema del reconocimiento de escritura a mano se ha investigado mucho, pero aún tenemos problemas por resolver.

Solo podemos decir que el problema se ha resuelto cuando tenemos una precisión del 100% para todas las muestras de prueba dadas a la muestra. Las posibles muestras de prueba pueden ser muy muy grandes. Por ejemplo, pídale a cada persona en la tierra que escriba un carácter ‘p’ (digamos) en papel. Todas estas muestras serán muy diferentes en trazos de lápiz. Esto hace que el problema sea muy complejo y todavía tenemos mucho en qué trabajar.

More Interesting

¿Cómo afectará el aprendizaje automático a la economía, tanto a corto plazo (2–5 años) como a largo plazo?

¿Cuáles son las distribuciones bayesianas anteriores y posteriores? ¿Cuáles son sus roles en las redes neuronales?

¿Por qué la máquina de Bolzmann restringida se llama memoria asociativa?

¿Qué enfoque de aprendizaje automático recomendaría realizar OCR (reconocimiento de caracteres) en un sistema de reconocimiento automático de matrículas?

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

¿La programación de Python es suficiente para el aprendizaje automático o deberíamos aprender R también?

¿A qué se refiere el concepto de sesgo de presentación-retroalimentación en el contexto del aprendizaje automático?

Cómo conseguir un trabajo de nivel de entrada en India en el campo de la robótica, la inteligencia artificial o el aprendizaje automático

¿Cuáles son algunos conjuntos de datos etiquetados disponibles públicamente que usan Kinect para su uso en la investigación de la visión por computadora?

¿Debo comenzar a aprender Python y el aprendizaje automático al mismo tiempo?

¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?

¿El proceso gaussiano supone que sus covarianzas se mantienen constantes?

¿Qué sería más beneficioso para un estudiante de tercer año de ECE, hacer aprendizaje automático u otros cursos?

¿Cómo se puede aplicar el aprendizaje automático al póker?

Cómo obtener una pasantía de investigación en aprendizaje automático o inteligencia artificial en una universidad de los EE. UU., Ser indio trabajando en una startup