Clem Wang ya ha dado referencias.
La mayoría de los RCNN parecen usar objetos de etiqueta en una imagen Jerarquías de características ricas para la detección precisa de objetos y la segmentación semántica ( también vea el enlace a continuación a otros documentos recientes que citan este documento como referencia ) dividiéndolo en regresiones, pero una posibilidad es
- use un modelo que convierta texto de OCR en una representación usando una CNN, y luego tenga un modelo de secuencia a secuencia, usando un modelo de lenguaje en el que fue entrenado, para ajustar mejor las palabras / frases de la entrada de texto potencialmente errónea.
- Entonces, la entrada a este modelo de secuencia a secuencia es la representación del texto OCR y la salida es la secuencia de texto corregida
Otra solución es usar para tomar la salida de texto de una CNN y encontrar alternativas de palabras para cada palabra usando, por ejemplo, Fasttext y luego, evaluar cada alternativa usando un modelo de lenguaje entrenado con un RNN (elija una alternativa con la entropía más baja).
- Un robot no puede escribir un programa. ¿Es lo contrario de esto también cierto?
- ¿Cuánto tiempo llevaría aprender programación de IA (programador autodidacta)?
- Para el futuro, ¿esperaría (o sugeriría) que el ingeniero promedio tenga más competencia en el aprendizaje automático?
- ¿De qué manera pueden trabajar juntos Q-learning y las redes neuronales?
- ¿Qué arquitectura de redes neuronales funcionará mejor para un problema de anotación de imagen y por qué?
Es probable que estos enfoques funcionen mejor que la corrección basada en la distancia de edición estándar en la salida de OCR, ya que tienen en cuenta el contexto de la oración para la corrección.
Resultados de citas para el documento anterior