No, este documento es interesante, pero se basa en varios supuestos clave.
El número de urls y consultas únicas en el documento no es trivial (585M y 10M / día durante 1.5 años), pero no sería representativo hoy, y ni siquiera en 2008.
El artículo básicamente argumenta que la entropía de las respuestas sobre un conjunto limitado de consultas y URL parece (sorprendentemente) pequeña. Tenga en cuenta que existe una suposición clave, reconocida por los autores, de que casi todas las respuestas provienen de la primera página de resultados.
- Cómo superar mis bloques de escritura científica en inglés (como segunda lengua)
- ¿Cuáles son los temas de investigación más interesantes en ciencias?
- ¿Cuáles son las conferencias de alto nivel o los expertos en informática afectiva?
- ¿Cuáles son las empresas / instituciones académicas que trabajan en compiladores?
- ¿Qué estructuras de datos son más eficientes que las tablas hash?
La entropía de las respuestas está naturalmente limitada severamente debido al límite superior finito en el número de posibles primeras páginas (número de consultas diferentes) y posibles respuestas (10 veces eso). Lo que dicen los autores es que la entropía es (mucho) más pequeña que eso, es decir, que podemos predecir la respuesta con menos información.
Otra suposición clave es la tasa de cambio de los resultados de búsqueda. Los autores parecen suponer que los resultados son estacionarios, lo que sería natural en un estudio académico de resultados de búsqueda de referencia, pero ahora no es realista, con búsqueda en tiempo real y otras formas de contenido que cambian rápidamente.
Por cierto, el documento hace algunas otras suposiciones que no parecen razonables, como que los productores racionales no intenten producir contenido más allá de lo que los consumidores podrán consumir: claramente no han participado en mucho SEO 🙂
Intuitivamente, algunas de sus afirmaciones tienen sentido: considere Wikipedia, es bien sabido que sus resultados están muy bien clasificados en Google y otros (http://battellemedia.com/archive…)
Por lo tanto, un predictor de 1 bit si una página es de Wikipedia o no daría una alta probabilidad de que los usuarios hagan clic en una respuesta de Wikipedia, si hubiera una.
Este documento trata realmente sobre la variación de las respuestas de un corpus de urls encuadernado, presentado en un entorno (muy restringido) de 10 resultados por página, donde los usuarios básicamente no hacen clic más allá de la primera página.
Es bien sabido (al menos por los expertos en búsquedas) que la mitad de las nuevas consultas que los motores de búsqueda reciben en un día nunca antes se habían visto. Este hecho demuestra que el tamaño de la muestra de consulta (10M / día durante 1.5 años) no es suficiente ya que le faltan muchas cosas de cola larga, lo que aumentaría mucho la varianza. OTOH probablemente argumentarían que el punto es que la varianza aumentaría pero no tanto como el tamaño de la muestra de consulta, eso sonaría plausible.
Como cada vez es más claro que las personas están utilizando otras fuentes de información (como Facebook o Twitter), no solo Google, que están introduciendo no solo una variación adicional sino que también están cambiando rápidamente, la diversidad de respuestas (la entropía) crecerá.
Tenga en cuenta que incluso en ese caso, se debería esperar que la entropía crezca menos rápido que las fuentes porque es probable que aún podamos hacer todo tipo de predicciones bastante precisas sobre lo que la gente hace clic. Por ejemplo, podemos predecir qué dominios se vuelven muy populares e influyen fuertemente en lo que la gente hace clic, o cualquier cantidad de muchas otras predicciones posibles.