¿Existe un algoritmo informático para detectar ‘noticias falsas’?

Es difícil identificar si las noticias son verdaderas o falsas. Pero los motores de búsqueda pueden (en su mayoría) determinar automáticamente en qué fuentes de información confían más personas.

En los primeros días de Google, los fundadores inventaron el algoritmo PageRank para este propósito. Los motores de búsqueda anteriores solo se habían basado en el contenido real de cada página. Pero Larry y Sergei se dieron cuenta de que la estructura de enlace de la web podría usarse para identificar en qué páginas realmente confían las personas.

Por ejemplo, el enlace a un artículo del New York Times podría ser publicado por decenas de miles de personas diferentes. En contraste, mis publicaciones generalmente son compartidas solo por un puñado de personas en el mejor de los casos. Eso sugiere intuitivamente que el New York Times es más confiable.

Larry y Sergei tuvieron que decidir qué tan importante es cada enlace. Decidieron un algoritmo recursivo simple: el peso de cada enlace de un sitio es proporcional al peso de ese sitio.

Entonces, si el New York Times repentinamente volviera a publicar una de mis respuestas, muchas más personas confiarían en ella. Pero si es compartido por uno de mis amigos, eso cuenta mucho menos.

Ahora, esta es una definición circular, pero se puede usar para producir un sistema de ecuaciones. Y con algunos supuestos básicos, hay exactamente una solución consistente que brinda el nivel de confianza para cada sitio.


Por supuesto, tan pronto como la popularidad de Google creció, las personas se dieron cuenta de que podían explotar este sistema simple agregando enlaces adicionales a sus sitios. Y así comenzó la carrera armamentista de Search Engine Optimization (SEO).

El algoritmo de clasificación de Google es mucho más complicado ahora, y su código solo es accesible para unos pocos empleados clave. Pero todavía no es completamente exitoso, ya que cada pocos meses hay una nueva controversia como esta: un resultado de Google para el Holocausto es ahora un sitio supremacista blanco.

La conclusión es que las computadoras aún no son tan buenas como los humanos para entender el lenguaje. Y hasta que lo estén, Google tendrá que seguir empleando ejércitos de ingenieros de software para encontrar mejores formas de enseñar a sus algoritmos el sentido común.

Entonces, el problema es ¿cómo clasifica las noticias falsas? Como todas las noticias tienen cierto nivel de verdad, necesitaría alguna forma de verificar si la historia es verdadera o no. Probablemente la mejor manera de hacerlo es a través de un sistema de clasificación, donde la gente vota hacia arriba y hacia abajo en las fuentes de noticias. Entonces, el miembro de la familia que comparte constantemente un artículo de Breitbart si el público piensa que Breitbart no es confiable, alguien en Facebook podría averiguar cuán sincero es un autor o un artículo antes de tomarlo como un evangelio. Si un miembro conservador de su familia piensa que CNN es “noticias falsas”, entonces rechazarán a CNN. Entonces dependería del lector encontrar un sitio que tenga un alto rango de veracidad sobre el mismo tema en el que están interesados. Creo que Google está buscando crear un sistema de clasificación para las fuentes de noticias.

El algoritmo sería identificar los sitios web. Los sitios web son clave.

  • Creo que las URL también podrían ser una pista.
  • La actualidad de las URL debe ser una pista. Los sitios de menos de 5 años, tal vez incluso de 24 a 36 meses de edad, parecen tener una tasa más alta en mi humilde opinión. La mayoría de estos sitios probablemente se lanzaron justo antes de que Trump ingresara. Lo mismo ocurre con los sitios de noticias falsas que son más comerciales.
  • Las cuentas de Twitter y Facebook que se utilizan. También su origen.

Creo que podría identificar sitios web que no fueran noticias falsas.

Los patrones de tráfico podrían ser otro. Aunque podría parecerse a otro tráfico viral.