Es difícil identificar si las noticias son verdaderas o falsas. Pero los motores de búsqueda pueden (en su mayoría) determinar automáticamente en qué fuentes de información confían más personas.
En los primeros días de Google, los fundadores inventaron el algoritmo PageRank para este propósito. Los motores de búsqueda anteriores solo se habían basado en el contenido real de cada página. Pero Larry y Sergei se dieron cuenta de que la estructura de enlace de la web podría usarse para identificar en qué páginas realmente confían las personas.
Por ejemplo, el enlace a un artículo del New York Times podría ser publicado por decenas de miles de personas diferentes. En contraste, mis publicaciones generalmente son compartidas solo por un puñado de personas en el mejor de los casos. Eso sugiere intuitivamente que el New York Times es más confiable.
- En la complejidad temporal de un algoritmo, ¿por qué puede considerarse útil que una operación elemental tome "tiempo unitario"?
- Si U = {todos los enteros positivos menores o iguales a 30} y N = {todos los números impares menores o iguales a 19}, ¿qué es N 'y n (N')?
- ¿Cuál es el código más elegante que puede escribir en su lenguaje de programación favorito que imprima los números del 100 al 200?
- ¿Habrá diferentes algoritmos para implementar la inserción y eliminación de una estructura de datos como b árboles?
- ¿Cómo diferenciar entre algoritmos de clasificación internos y externos en términos simples? ¿Cómo se lo explica a los principiantes?
Larry y Sergei tuvieron que decidir qué tan importante es cada enlace. Decidieron un algoritmo recursivo simple: el peso de cada enlace de un sitio es proporcional al peso de ese sitio.
Entonces, si el New York Times repentinamente volviera a publicar una de mis respuestas, muchas más personas confiarían en ella. Pero si es compartido por uno de mis amigos, eso cuenta mucho menos.
Ahora, esta es una definición circular, pero se puede usar para producir un sistema de ecuaciones. Y con algunos supuestos básicos, hay exactamente una solución consistente que brinda el nivel de confianza para cada sitio.
Por supuesto, tan pronto como la popularidad de Google creció, las personas se dieron cuenta de que podían explotar este sistema simple agregando enlaces adicionales a sus sitios. Y así comenzó la carrera armamentista de Search Engine Optimization (SEO).
El algoritmo de clasificación de Google es mucho más complicado ahora, y su código solo es accesible para unos pocos empleados clave. Pero todavía no es completamente exitoso, ya que cada pocos meses hay una nueva controversia como esta: un resultado de Google para el Holocausto es ahora un sitio supremacista blanco.
La conclusión es que las computadoras aún no son tan buenas como los humanos para entender el lenguaje. Y hasta que lo estén, Google tendrá que seguir empleando ejércitos de ingenieros de software para encontrar mejores formas de enseñar a sus algoritmos el sentido común.