Suponiendo que tiene las imágenes de texto impreso y no escrito a mano. Te sugiero que veas cómo lo hace tesseract. Tesseract es un motor de OCR de código abierto de Google que admite varios idiomas. Puede especificar los idiomas como opción en la línea de comandos y no solo detecta el carácter que pertenece a ese idioma, sino que también lo clasifica con una precisión muy alta.
EDITAR: entiendo que la respuesta anterior no responde la consulta directamente. En pensamientos alternativos, dado que los caracteres son exactamente del mismo tamaño, la coincidencia de patrones es una solución bastante factible para esto, es decir, verificar iterativamente los caracteres (26 mayúsculas + 26 pequeños). Entrenar el svm para estas 52 clases y evaluar cada imagen mediante ese archivo de entrenamiento conducirá a casi exactamente el mismo resultado que el de la coincidencia de patrones.
Personalmente sugiero ir con la coincidencia de patrones.
- ¿Por qué la pila de RBM después de aprender no es una máquina de Boltzmann profunda (DBM)?
- ¿Cuáles son algunos de los desafíos y oportunidades sobresalientes en el análisis predictivo con respecto a la privacidad y la propiedad de los datos, el análisis de los datos del usuario, el escalado de algoritmos y los ecosistemas e intercambios de datos emergentes?
- ¿Existe la idea de utilizar la regularización para evitar el sobreajuste en la econometría, como lo enseñan los economistas?
- ¿Qué es una explicación intuitiva del parámetro gamma en SVM?
- ¿Cuál es una buena manera de elegir los puntos iniciales de los grupos de k en el grupo de medios k?