¿Debo usar juicios de relevancia explícitos o comentarios de clics implícitos para recopilar datos de capacitación para construir un modelo de Aprendizaje para clasificar?

La respuesta depende de una serie de factores, como por qué está tratando de optimizar, qué tan maduro es su sistema, cuántos recursos tiene, etc.

Repasemos las ventajas / desventajas de cada enfoque.

Uso de clics (u otra métrica en línea) para capacitación

  1. Si tiene un sitio existente, probablemente ya esté registrando clics y otras acciones del usuario. Esto significa que puede comenzar a usar los clics para entrenar muy rápidamente. Es una solución rápida y de bajo costo.
  2. Sin embargo, los clics a menudo son la métrica incorrecta para optimizar. Los clics están muy influenciados por cosas como su UI, el “atractivo” del resultado, etc. Los clics son esencialmente una métrica “superficial” y no le dicen si al usuario le gustó el resultado o no.
  3. Si puede derivar una métrica de las acciones del usuario que se correlaciona bien con un buen resultado, debe usarla en lugar de clics. Por ejemplo, para un sitio de comercio electrónico, las “conversiones” (ya sea que el usuario haya agregado un artículo al carrito o haya comprado un artículo) es una métrica en línea mucho mejor para optimizar en lugar de clics.

Usar juicios de relevancia explícitos para la capacitación

  1. Obtener buenos juicios explícitos de relevancia generalmente no es fácil. Debe presentar pautas claras sobre lo que hace un buen resultado y capacitar a sus jueces en esas pautas. Incluso después de eso, no puede suponer que sus jueces seguirán las pautas correctamente, por lo que debe construir sus sistemas para que sean robustos. Por ejemplo, es posible que deba realizar una auditoría continua y eliminar a los jueces malos o utilizar varios jueces por calificación. Todo esto lleva tiempo y recursos para implementar, lo que puede ser difícil si te falta cualquiera. Además de eso, si sus resultados son personalizados o contextualizados de alguna manera, obtener juicios de relevancia explícitos sobre esto es mucho, mucho más difícil.
  2. Sin embargo, si puede resolver todos los desafíos del punto 1 anterior, los juicios de relevancia explícitos le brindan una etiqueta de mayor calidad para optimizar que solo los clics. Entonces, si realmente le importa la relevancia y no puede medir la relevancia de manera adecuada utilizando métricas en línea, invertir en un sistema de juicio de relevancia explícito generalmente vale la pena.

Dado esto, una buena regla general para elegir la variable de optimización correcta para su modelo de clasificación sería:

  1. Si puede llegar a una métrica en línea buena y sin ambigüedades para optimizar (por ejemplo, “conversiones” para un sitio de comercio electrónico, etc.), úsela para capacitación.
  2. Si no puede hacer 1, pero puede superar todos los desafíos con la construcción de un sistema de juicio de relevancia explícito anterior, use juicios de relevancia explícitos.
  3. Si no puede hacer 1 o 2, use clics.

Mi preferencia personal sería la retroalimentación de clics implícita sobre los juicios de relevancia explícitos. Sin embargo, si cree que sus juicios de relevancia son de alta calidad, puede valer la pena agregarlos también como características. Dado que está en el comercio electrónico, es posible que desee utilizar otros indicadores además de los clics en los resultados de búsqueda (supongo que a eso se refiere cuando menciona la corrección del sesgo posicional), como el tiempo dedicado a las páginas de contenido. , la cantidad de clics realizados dentro de la página de contenido, etc., como factores adicionales también.