¿La entropía de la web es de solo 22 bits?

No, este documento es interesante, pero se basa en varios supuestos clave.

El número de urls y consultas únicas en el documento no es trivial (585M y 10M / día durante 1.5 años), pero no sería representativo hoy, y ni siquiera en 2008.

El artículo básicamente argumenta que la entropía de las respuestas sobre un conjunto limitado de consultas y URL parece (sorprendentemente) pequeña. Tenga en cuenta que existe una suposición clave, reconocida por los autores, de que casi todas las respuestas provienen de la primera página de resultados.

La entropía de las respuestas está naturalmente limitada severamente debido al límite superior finito en el número de posibles primeras páginas (número de consultas diferentes) y posibles respuestas (10 veces eso). Lo que dicen los autores es que la entropía es (mucho) más pequeña que eso, es decir, que podemos predecir la respuesta con menos información.

Otra suposición clave es la tasa de cambio de los resultados de búsqueda. Los autores parecen suponer que los resultados son estacionarios, lo que sería natural en un estudio académico de resultados de búsqueda de referencia, pero ahora no es realista, con búsqueda en tiempo real y otras formas de contenido que cambian rápidamente.

Por cierto, el documento hace algunas otras suposiciones que no parecen razonables, como que los productores racionales no intenten producir contenido más allá de lo que los consumidores podrán consumir: claramente no han participado en mucho SEO 🙂

Intuitivamente, algunas de sus afirmaciones tienen sentido: considere Wikipedia, es bien sabido que sus resultados están muy bien clasificados en Google y otros (http://battellemedia.com/archive…)

Por lo tanto, un predictor de 1 bit si una página es de Wikipedia o no daría una alta probabilidad de que los usuarios hagan clic en una respuesta de Wikipedia, si hubiera una.

Este documento trata realmente sobre la variación de las respuestas de un corpus de urls encuadernado, presentado en un entorno (muy restringido) de 10 resultados por página, donde los usuarios básicamente no hacen clic más allá de la primera página.

Es bien sabido (al menos por los expertos en búsquedas) que la mitad de las nuevas consultas que los motores de búsqueda reciben en un día nunca antes se habían visto. Este hecho demuestra que el tamaño de la muestra de consulta (10M / día durante 1.5 años) no es suficiente ya que le faltan muchas cosas de cola larga, lo que aumentaría mucho la varianza. OTOH probablemente argumentarían que el punto es que la varianza aumentaría pero no tanto como el tamaño de la muestra de consulta, eso sonaría plausible.

Como cada vez es más claro que las personas están utilizando otras fuentes de información (como Facebook o Twitter), no solo Google, que están introduciendo no solo una variación adicional sino que también están cambiando rápidamente, la diversidad de respuestas (la entropía) crecerá.

Tenga en cuenta que incluso en ese caso, se debería esperar que la entropía crezca menos rápido que las fuentes porque es probable que aún podamos hacer todo tipo de predicciones bastante precisas sobre lo que la gente hace clic. Por ejemplo, podemos predecir qué dominios se vuelven muy populares e influyen fuertemente en lo que la gente hace clic, o cualquier cantidad de muchas otras predicciones posibles.

El documento utiliza un enfoque bastante ingenuo y logra buenos resultados. Está agrupando a los usuarios por dirección IP en lugar de por variables demográficas.

La realidad es que solo un número muy pequeño de sitios web tienen información relevante sobre ellos y la gran mayoría de Internet es spam. Piense en cuántas visitas de página genera al día y en cuántos sitios se producen esas visitas. NYT, Twitter, Quora, Facebook … en realidad las personas usan solo un número muy pequeño de sitios web y recursos.

23 bits de entropía son altos para predecir la siguiente URL en la que el usuario hace clic. La razón por la cual la cifra de entropía del documento era tan alta es que el autor estaba agrupando a los usuarios solo por dirección IP, en lugar de por otras variables demográficas más informativas.

Observe que su gráfico en la sección 3 muestra que las estimaciones de entropía son sólidas y muy similares cuando se calculan con 1 mes de datos o 1,5 años de datos.

El resultado no es irrazonable.

More Interesting

Cómo enviar una idea de investigación al Instituto Max Planck

¿Por qué Oxbridge se clasifica tan alto en las clasificaciones de asignaturas de QS en informática mientras contribuyen poco a la investigación en informática?

En su POE, si un solicitante de doctorado de CS enumera grandes errores en un documento de investigación de su posible asesor de doctorado, ¿eso impresionaría al comité de admisiones?

¿Cuáles son las principales diferencias entre una idea de investigación y una idea producible en informática?

¿Qué tipo de problemas informáticos son más divertidos de resolver?

¿Qué proyectos podría hacer en el paralelismo a nivel de hilo?

¿Cuál es la diferencia entre la visión humana y la visión por computadora?

¿Qué es el Protocolo de separación de localizador / identificador (LISP) en términos simples, con las terminologías en eso?

¿Cuál es un problema o problema interesante relacionado con los lenguajes de script para un proyecto en mi curso de diseño de lenguaje de programación?

¿Cuáles son las preguntas / temas de investigación más importantes en informática hoy en día?

Soy un estudiante de ciencias de la computación en el segundo año y estoy obteniendo buenas calificaciones, pero aún no estoy satisfecho. Quiero ser parte de grandes organizaciones y quiero utilizar mi tiempo, pero no sé cómo hacerlo. ¿Cómo puedo utilizar mi tiempo en proyectos beneficiosos?

¿Cuál es la forma más eficiente de transferir datos entre MATLAB y Python?

¿Cuáles son los algoritmos de inferencia de tipos más comunes en uso hoy en día?

¿Cómo puedo buscar solo documentos de transacciones IEEE?

¿Cuáles son las últimas ideas de investigación en informática?