¿Por qué el aprendizaje automático se usa mucho para la clasificación de anuncios de Google y menos para su clasificación de búsqueda? ¿Qué llevó a esta diferencia?

Por lo que reuní mientras estaba allí, Amit Singhal, que dirige el equipo de clasificación central de Google, tiene un sesgo filosófico en contra del uso del aprendizaje automático en la clasificación de búsqueda. Mi comprensión por las dos razones principales detrás de esta filosofía es:

  1. En un sistema de aprendizaje automático, es difícil explicar y determinar por qué un resultado de búsqueda en particular ocupa un lugar más alto que otro resultado para una consulta determinada. La explicabilidad de una determinada decisión puede ser bastante difícil de alcanzar; La mayoría de los algoritmos de aprendizaje automático tienden a ser cuadros negros que, en el mejor de los casos, exponen pesos y modelos que solo pueden representar una imagen aproximada de por qué se tomó una determinada decisión.
  2. Incluso en situaciones en las que alguien logra identificar las señales que tienen en cuenta por qué un resultado se clasificó más alto que otro, es difícil ajustar directamente un sistema basado en el aprendizaje automático para aumentar la importancia de ciertas señales sobre otras en contextos aislados. Las señales y características que se alimentan en un sistema de aprendizaje automático tienden a afectar indirectamente la salida a través de capas de pesos, y esta falta de control directo significa que incluso si un humano puede explicar por qué una página web es mejor que otra para una consulta determinada, Puede ser difícil integrar esa intuición humana en un sistema basado en el aprendizaje automático.

Las métricas de puntuación basadas en reglas, aunque aún son complejas, brindan una mayor oportunidad para que los ingenieros ajusten directamente los pesos en situaciones específicas. Por el dominio de Google en la búsqueda web, está bastante claro que la decisión de optimizar la explicación y el control sobre las clasificaciones de resultados de búsqueda ha sido exitosa al permitir que el equipo itere y mejore rápidamente la calidad de la clasificación de búsqueda. El equipo lanzó 450 mejoras en 2008 [1], y es probable que el número solo crezca con el tiempo.

La clasificación de los anuncios, por otro lado, tiende a ser mucho más un problema de optimización donde la calidad de dos anuncios es mucho más difícil de comparar e intuir que los resultados de dos páginas web. Mientras que las páginas web son bastante distintivas y pueden ser comparadas y evaluadas por evaluadores humanos en función de su relevancia y calidad para una consulta determinada [2], los anuncios cortos de tres o cuatro líneas que aparecen en la búsqueda web se parecen bastante a los humanos. Puede ser fácil para un humano identificar un anuncio obviamente terrible, pero es difícil comparar dos razonables:


Las diferencias de marca, las señales textuales sutiles y los rasgos de comportamiento del usuario, que son difíciles de intuir para los humanos pero fáciles de identificar para las máquinas, se vuelven mucho más importantes. Además, diferentes anunciantes tienen diferentes presupuestos y diferentes ofertas, lo que hace que la clasificación de anuncios sea más un problema de optimización de ingresos que simplemente un problema de optimización de calidad. Debido a que los humanos son menos capaces de comprender la decisión detrás de una decisión de clasificación de anuncios que puede funcionar bien empíricamente, la explicabilidad y el control, que son importantes para la clasificación de búsqueda, se vuelven comparativamente menos útiles en la clasificación de anuncios, y el aprendizaje automático se convierte en una opción mucho más viable .

——–
[1] http://googleblog.blogspot.com/2…
[2] http://googleblog.blogspot.com/2…

La respuesta de Edmond Lau es excelente, pero quería agregar una información más importante.

Cuando estaba en el equipo de búsqueda en Google (2008-2010), muchos de los grupos en búsqueda se estaban alejando de los sistemas de aprendizaje automático a los sistemas basados ​​en reglas. Es decir que la Búsqueda de Google solía usar más aprendizaje automático, y luego tomó la otra dirección porque el equipo se dio cuenta de que podían hacer mejoras más rápidas en la calidad de búsqueda con un sistema basado en reglas. No es solo un sesgo, es algo que muchos sub-equipos de búsqueda probaron y prefirieron.

Fui el Primer Ministro de Imágenes, Video y Local Universal: 3 equipos que se enfocan en incluir los mejores resultados cuando son imágenes, videos o lugares. Para cada uno de esos equipos pude entender y recordar fácilmente cómo funcionaban las reglas. Con frecuencia miraba las búsquedas aleatorias y sus resultados y pensaba “¿Incluimos las imágenes correctas para esta búsqueda? Si no, ¿cómo podríamos haberlo hecho mejor?”. Y cuando hicimos esa pregunta, generalmente pudimos pensar en señales que hubieran ayudado: pruébelo usted mismo. Las razones por las que * usted * piensa que deberíamos haber mostrado una determinada imagen son generalmente cosas que Google realmente puede entender.

Además de la respuesta de Lau, esta publicación de blog del Dr. Anand Rajaraman http://anand.typepad.com/datawoc … es una buena lectura.