¿Google tiene alguna ventaja competitiva algorítmica en la búsqueda sobre Bing o la tecnología de búsqueda se ha convertido en un producto básico?

Como asunto empírico, encuentro que Google todavía tiene una ventaja competitiva de utilidad en la mayoría de los dominios de propósito general. Esto no se basa en haber realizado ninguna prueba A / B hardcore, sino en consultas aleatorias.

Mi evaluación sería que Google generalmente arroja resultados de relevancia superior y los muestra de una manera más familiar / eficiente. Dos ejemplos que probé esta noche:

1. “Art Linkletter”. Ambos sitios se completaron automáticamente cuando llegué a “Art Lin”. En Google había un breve onebox de “noticias” seguido de los resultados de búsqueda orgánicos. En Bing había mucho más “desorden” además de las noticias antes de los resultados orgánicos: imágenes, videos, una forma de compartir (tweet / facebook / email). Enviarme por correo electrónico el resultado de la consulta me pareció más Microsoft tratando de crear viralidad que haciendo que la búsqueda sea más útil.

2. “Derrame de petróleo del Golfo” Aquí los resultados orgánicos para Google fueron superiores. Todos los resultados de la primera página de Google estaban en punto. El primer resultado orgánico de Bing fue el “Derrame de petróleo de la Guerra del Golfo”, sobre el derrame de 1990 en Kuwait, que no podría haber importado menos. Para mi diversión, Google también tenía una lista de pago de BP en la parte superior (intento anémico de BP para el control de daños de pr).

Hay un dominio en el que considero que Bing es consistentemente superior a Google y es el viaje. Ahora suelo usar Bing para todas las consultas relacionadas con viajes, especialmente los viajes aéreos. No estoy seguro de que Bing sea superior a Kayak, pero me encuentro yendo a Bing por defecto y me estoy olvidando de Kayak.

Si bien creo que es probable que Microsoft haya cerrado un poco la brecha de calidad y la cierre más con el tiempo, creo que el obstáculo para cambiar los patrones de uso del consumidor no es simplemente la paridad, sino (a) superioridad significativa, y / o (b ) incentivos de uso más fuertes.

No existen grandes ventajas algorítmicas entre los grandes buscadores, ahora es en gran medida un juego de costo y mejoras marginales. La búsqueda general convencional requiere muchos recursos.

En realidad, hay cuatro partes clave de la búsqueda web: rastreo, indexación, clasificación (las tres ya mencionadas en otras respuestas), así como la publicación de consultas.

Las cuatro partes han experimentado grandes cambios y avances en los últimos años:

  • Rastreo: rastreo convencional, donde el objetivo es llegar a todos los nodos de un conjunto inicial conocido (la semilla) ahora está obsoleto. Hay orden (es) de magnitud más enlaces enviados a Google, en gran parte para SEO, que Google realmente incluye en su índice. La información confiable del usuario es absolutamente crucial para determinar cuáles son legítimos. Google obtiene dichos datos mediante el seguimiento de los patrones de uso de una multitud de productos de Google: barras de herramientas, clics de resultados de búsqueda, Gmail, Google Analytics, etc. La naturaleza del uso de estos datos es un tema extremadamente delicado, ya que no se ha establecido claramente quién es el propietario. y que Google puede usarlo para tales fines. Tenga en cuenta que todos los términos de servicio para los productos de Google son muy amplios, dando la impresión de que todo es gratuito y claro. Pero todos estos acuerdos están sujetos a interpretaciones legales en las que los tribunales pueden revocarlos, creando potenciales enormes responsabilidades. Incluso después de dejar de lado las posibles responsabilidades, habría una gran interrupción en el negocio de Google si los tribunales tuvieran que imponer restricciones significativas sobre el uso de dichos datos.
  • Indexación: solía haber más sutileza en la indexación, al descubrir cómo usar los discos duros de manera eficiente. Sin embargo, eso ya no es relevante ya que la RAM ahora es barata. Un índice de clase mundial no requeriría más de varios cientos de TB de RAM, por ejemplo, 500 TB, con un costo actual <$ 20M que sería insignificante para Google en el gran esquema de las cosas. La principal limitación hoy en día no es la latencia de acceso a los datos, sino el rendimiento general de las redes que conectan miles de piezas de RAM esparcidas a través de servidores (tontos) dentro del centro de datos.
  • Clasificación: es el más desafiante en términos de recursos, ya que requiere que se realicen cálculos cada vez más grandes en forma de matriz (PageRank + montón de otras señales) en una ventana cada vez menor dictada por las interacciones sociales modernas, donde hay cientos de miles de tweets , publicaciones, clics, etc. cada segundo. Ni siquiera es factible que Google haga mucho en segundos o minutos. Google anuncia herramientas de búsqueda donde puede buscar resultados en el último minuto, incluso segundos. Pero tales resultados son muy superficiales, puede verlos fácilmente haciendo una consulta para una palabra clave muy popular como ‘web’ en el último minuto. También puede probarlo en un sitio muy popular, por ejemplo, Twitter: actualmente no obtengo resultados para ‘site: twitter.com’ en el último minuto. Tenga en cuenta que Twitter recibe decenas de miles de tweets por segundo.
  • Servicio de consultas: esta ha sido siempre una cuestión de muchachos, ya que requiere muchos recursos de fuerza bruta para atender flujos de consultas de decenas de miles de consultas por segundo. Piense en el agregado de 500 TB de RAM anterior como un solo clúster. Tal clúster puede necesitar multiplicarse docenas de veces de forma redundante para poder encargarse de las cargas de consultas de decenas de miles de consultas por segundo. Tenga en cuenta que la RAM también ayuda enormemente aquí, al reducir el factor de redundancia por orden (es) de magnitud.

El campo de búsqueda general se ha estancado en la última década, sin embargo, el aumento de Facebook ha obligado a Google a admitir de manera reactiva la importancia de los datos sociales de los usuarios.

Tenga en cuenta que Google ha estado utilizando datos de usuarios anónimos durante muchos años y que estos datos son absolutamente cruciales en la búsqueda moderna.

Pero dichos datos de usuario anónimos, utilizados en aprendizaje automático, clasificación, publicidad, etc., son muy diferentes de los sociales, donde se conocen las identidades de los usuarios y sus amigos.

Es por eso que Google Plus es tan importante para Google, no necesariamente como un gran generador de ingresos, sino como una fuente constante y confiable de datos sociales de identidad real.

Las redes sociales presentan otros problemas, por ejemplo, la clasificación social de fuerza bruta es completamente inviable ya que requeriría enormes cálculos de clasificación varios cientos de millones de veces.

Hay maneras de hacer tales cálculos de manera mucho más eficiente, compartiendo piezas importantes, pero este tema es un problema de investigación abierto, no importa listo para la producción.

Lo que es particularmente interesante de la OMI es que Bing está en una posición mucho mejor que Google en términos de control de clientes que usan las personas, para obtener acceso a datos cruciales de comportamiento del usuario. Bing tiene acceso a los mejores clientes en Internet Explorer y en Windows, mientras que Google tiene que hacer que la gente instale productos como barras de herramientas y Chrome. Curiosamente, parece que Bing no ha estado activo en esta área.