Creo que la mayoría del software de OCR en estos días usa un diccionario; el que se incluye con Adobe Acrobat Pro ciertamente lo hace.
No estoy seguro de entender lo que preguntas en “¿Cómo se hace?” ¿Estás preguntando cómo se ve el algoritmo de coincidencia del diccionario? Comienza con un algoritmo de “coincidencia de cadenas con errores” que primero encuentra posibles coincidencias, luego las refina con información conocida sobre los caracteres que no coinciden. Usando su ejemplo, la primera parte del algoritmo primero notaría que P4SSPORT se parece mucho a PASSPORT. Entonces, la segunda parte sabría (basándose en una tabla de algún tipo) que interpretar mal una A como un 4 es un evento de alta probabilidad, por lo que decidiría que la palabra es probablemente PASAPORTE. El algoritmo también tendría en cuenta qué tan buena es la coincidencia; por ejemplo, si el algoritmo de coincidencia de caracteres está muy seguro de que el carácter es un 4 y no una A, entonces será menos probable que el algoritmo general lo anule y decida que realmente es una A.
- ¿Podemos saber las cosas técnicas en un robot?
- ¿Se puede clasificar a un robot autorreplicante e artificialmente inteligente como un ser vivo?
- ¿Por qué los modelos que funcionan mejor durante el entrenamiento dan resultados más pobres durante la implementación?
- ¿Cuál es la plataforma o herramienta más simple para practicar el aprendizaje automático (para principiantes)?
- ¿Qué es un modelo de red neuronal?