¿Cómo funciona el texto predictivo?

Hay muchas formas de construir un sistema de texto predictivo, pero la mayoría de los sistemas de texto predictivo tienen configuraciones predeterminadas que el usuario puede configurar / cambiar / aprender. En los sistemas basados en el aprendizaje, el sistema aprende que generalmente un conjunto de palabras en una secuencia particular da como resultado una palabra completa particular. Por lo tanto, inicialmente se requiere la desambiguación del usuario, y luego la necesidad de reducirla gradualmente.

Puede haber predictores de texto basados en el diccionario , que se basan en un diccionario (de un idioma en particular) y sugieren palabras / correcciones basadas en este diccionario. Por otro lado, puede haber predictores que no son del diccionario que predicen en función de las estadísticas, la probabilidad de que una determinada letra (o un conjunto de letras) sea un prefijo de una palabra.

Uno de los predictores de texto más populares, el diccionario T9, está diseñado para ser más inteligente a medida que el usuario lo utiliza. Un conjunto específico de combinaciones de teclas puede dar como resultado varias palabras (que se obtienen de su diccionario de acceso rápido) y se selecciona la palabra más probable (la palabra más utilizada por el usuario) (de forma predeterminada). También podría considerar bi-gramos, es decir, la combinación de 2 palabras que ocurren juntas.

Una manera ingenua pero a menudo utilizada para implementar un diccionario se basaría en un trie (árbol de prefijos). Un trie es una estructura de datos que almacena las palabras generalmente en las hojas del árbol, donde los prefijos de las palabras se almacenan en nodos intermedios. Por lo tanto, todos los hijos de un nodo tienen un prefijo común. Tal trie se muestra a continuación:

Un trie para las teclas “A”, “to”, “tea”, “ted”, “ten”, “i”, “in” y “inn”.
(Fuente: Trie)

Tal diccionario puede ser almacenado por el diccionario, y a medida que se agregan / eliminan nuevas palabras, el archivo puede actualizarse adecuadamente.

Otra mejora importante es la de utilizar un ensayo probabilístico . En tal caso, a cada recorrido (tomar el camino de un niño en particular en lugar del otro) se le asigna un valor de probabilidad particular, que se puede aprender del comportamiento del usuario. Por ej. en el ejemplo anterior, si el usuario escribe la palabra “diez” con más frecuencia que “té” o “ted”, entonces la probabilidad de ramificación de “n” después del nodo “te” sería mayor. Por lo tanto, el diccionario sugeriría “diez” como el autocompletado predeterminado.