Solo puedo pensar en varias soluciones, pero no soy un experto y ninguna de ellas suena bien …
Si solo desea detectar hasta un espacio faltante, podría generar un diccionario que contenga la combinación de cada palabra con la otra palabra (incluida ella misma), y simplemente calcular la distancia de edición normalmente; debería darle una respuesta de 1, a saber, el espacio eliminado. Esto explotaría un diccionario de 20 000 palabras a 400 020 000 palabras, pero ¿probablemente podría podar esto de alguna manera? También reconocerá algunas palabras mal escritas como dos palabras correctas con un espacio perdido, incluso si eso no es lo que son. Supongo que necesitará una manera de comprender el significado de las oraciones para la poda y la detección de correcciones sin sentido.
También podría probar todas las variantes en las que podría faltar un espacio con un diccionario normal y buscar la suma más pequeña o algo así, pero esto significa que para una palabra de tamaño [math] n [/ math] deberá hacer [ math] 2 ^ {n-1} [/ math] consultas (hay posiciones [math] n-1 [/ math] donde un espacio puede estar presente o no). Si, de nuevo, desea que solo se detecte un espacio faltante, necesitará consultas [matemáticas] n [/ matemáticas].
- ¿Cuáles son las intersecciones entre los campos de la ciencia de datos y los sistemas complejos?
- ¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?
- ¿Por qué la similitud entre palabras generalmente se calcula a través del coseno métrico, no euclidiano?
- ¿Qué está sucediendo en este gráfico de pérdida de precisión de la red?
- ¿Cuál es la mejor red neuronal o SVM para la clasificación de texto de etiquetas múltiples?
Supongo que la tercera opción es tener solo frases en su diccionario, lo que dará como resultado un tamaño de diccionario razonable y solo una consulta por palabra.