¿Qué estructura de datos utiliza Google para implementar la función ‘¿Quiso decir?’

Nadie sabe realmente cómo Google hace exactamente esto o tal vez no he hecho suficiente trabajo a domicilio. Pero el enfoque más obvio y eficiente del que se habla en los documentos es sobre una estructura de datos llamada árboles de búsqueda ternaria.

Los árboles de búsqueda TSTternary son más eficientes en el espacio en comparación con los intentos habituales. Veamos una muestra TST:

Cada nodo es como el nodo en BST, donde su hijo izquierdo representa un valor menor que la raíz, el hijo derecho es el que tiene un valor mayor que la raíz y el nodo que desciende exactamente de él tiene un valor igual al siguiente carácter en la palabra. Los nodos vacíos son nodos centinela para marcar el final de la palabra.

Entonces, cuando escribe mal una palabra, busca palabras en nodos adyacentes. Como en el ejemplo anterior, si la palabra deletreada es READC, le sugerirá que pregunte si quiso decir “READS”.

Todavía hay muchos más factores a considerar, pero supongo que esto debería hacer que la rueda ruede. Puede consultar este artículo para obtener más detalles sobre cómo podemos implementar esto:
Árboles de búsqueda ternaria

Créditos de imagen: Uso de DAG ternarios para la corrección ortográfica

Búsqueda de GoogleBúsqueda webEstructuras de datosGoogle (empresa)Programación informáticaServidores (computadoras)

Cómo hacer un servidor CS 1.6 en un rastreador de juegos

Cómo reemplazar un servidor de archivos

¿Por qué se usa Linux comúnmente en los servidores?

Servidores: Si tuviera que comenzar a construir un sitio web de php hoy (verano de 2012) que espera que gane una comunidad grande y activa, ¿hay alguna razón por la que usaría Apache en lugar de Nginx?

Cómo asegurarse de que el ejecutable que descargué coincide con el código fuente

¿Cuál es la diferencia entre host y servidor en términos de redes de computadoras?

Copié esta respuesta del desbordamiento de pila.

Este video tiene respuesta:

al mínimo 22:03
¡Vale la pena ver!
Básicamente y de acuerdo con Douglas Merrill, ex director de tecnología de Google, es así:
1) Escribe una palabra (mal escrita) en google
2) No encuentras lo que buscabas (no hagas clic en ningún resultado)
3) Te das cuenta de que escribiste mal la palabra y reescribes la palabra en el cuadro de búsqueda.
4) Encuentra lo que buscas (haces clic en los primeros enlaces)
Este patrón multiplicado millones de veces, muestra cuáles son los errores ortográficos más comunes y cuáles son las correcciones más “comunes”.
De esta forma, Google puede, casi instantáneamente, ofrecer corrección ortográfica en todos los idiomas.
Esto también significa que si de la noche a la mañana todos comienzan a deletrear la noche como “noche”, Google sugeriría esa palabra.

Saben quién corrige la consulta, porque saben qué consulta proviene de qué usuario (usando cookies)
Si los usuarios realizan una consulta, y solo el 10% de los usuarios hacen clic en un resultado y el 90% regresa y escribe otra consulta (con la palabra corregida) y esta vez ese 90% hace clic en un resultado, entonces saben que han encontrado Una corrección.
También pueden saber si esas son consultas “relacionadas” de dos diferentes, porque tienen información de todos los enlaces que muestran.
Además, ahora están incluyendo el contexto en el corrector ortográfico, por lo que incluso pueden sugerir palabras diferentes según el contexto.

Praveen Kumar

Es básicamente una versión híbrida del procesamiento del lenguaje natural junto con
Intentos
(búsqueda de trenzas que proporcionan complejidad O (m) donde m es el número de caracteres en la cadena)
Estos árboles también se usan en cachés de búsqueda DNS directa e inversa
En caso de que necesite más detalles e implementación de programación, comente a continuación
¡¡prestigio!!

Praveen Kumar

Tipo de algoritmo de corrección automática.

Praveen Kumar

More Interesting

¿Cuál es la mejor herramienta para monitorear un conjunto de servidores de Windows (memoria, CPU, E / S)?

¿Cuántos amplificadores se necesitan para un rack (48U) de servidores?

¿Hay algún problema al usar Windows Server en casa, no en una empresa, como problemas de seguridad?

¿Hay alguna forma de configurar un servidor de correo localmente en una PC para un desarrollo web?

¿Cuál es la mejor manera de aprender cómo configurar un servidor Amazon EC2?

¿Cómo llegan las solicitudes y respuestas en Internet del cliente al servidor y viceversa?

Cómo configurar una base de datos para el servidor de mi sitio web que se puede escalar

¿Cuál es la diferencia entre un dinamómetro web de Heroku y un dinamómetro de trabajo?