¿Qué piensan los expertos en sistemas de recomendación sobre el documento ‘Estimación del impacto causal de los sistemas de recomendación a partir de datos de observación’?

No soy un experto en sistemas de recomendación con diferencia, pero como uno de los autores del artículo, me gustaría aclarar algunos puntos en respuesta a la publicación de Xavier. La crítica clave anterior parece ser sobre la elección de la pregunta de investigación que persigue el artículo, que abordaré en detalle a continuación. Antes de hacerlo, aquí hay algunos comentarios de alto nivel.

Primero , nuestra motivación para este trabajo no es cuestionar la utilidad de los sistemas de recomendación, sino idear una forma adicional de evaluar y mejorar los sistemas de recomendación actuales en los casos en que la ejecución de un experimento aleatorio no sea factible. La formulación que elegimos tampoco es nueva, y está estrechamente relacionada con la novedad y la casualidad: ¿cuántas visitas suceden a través de recomendaciones que de otro modo no hubieran sucedido? Según esta interpretación, nuestra estimación causal es menor que el CTR observado, pero no sugiere que los sistemas de recomendación no sean útiles: ¡un aumento del 8% junto con beneficios a largo plazo para la experiencia del usuario (como señala Xavier) es una gran victoria!

En segundo lugar , como mencionamos en el documento, no necesariamente esperamos que nuestra estimación del 8% (o una cuarta parte de todos los clics observados) se mantenga en diferentes tipos de recomendaciones y en diferentes sitios web. De hecho, seríamos los primeros en sorprendernos si la estimación se mantiene exactamente. Más bien, el punto es que es fácil sobrestimar erróneamente este efecto utilizando datos de observación debido a la demanda correlacionada, y proporcionamos un método mejorado para dar cuenta de esto.

Tercero , y lo más importante, no creemos que nuestro método pueda o deba reemplazar las pruebas A / B cuando sean posibles. Nuestro método comparte las limitaciones de todos los métodos que funcionan solo con datos de observación, que reconocemos en el documento. Por lo tanto, vemos este método como un complemento en tiempo real para las pruebas A / B, en lugar de un sustituto.

Alentamos a los lectores interesados ​​a leer las Secciones 5 y 6 del documento donde discutimos los problemas de validez y generalización de nuestro método. Más detalles a continuación, basados ​​en la crítica de Xavier.

1. Relevancia de la pregunta de investigación.

En general, podría haber cuatro tipos de preguntas de “qué pasaría si” que uno pudiera preguntar sobre el efecto causal de los sistemas de recomendación.

  1. ¿Qué pasa si eliminó una sola recomendación?
  2. ¿Qué sucede si elimina todas las recomendaciones de la página de un solo producto?
  3. ¿Qué sucede si elimina todas las recomendaciones de un sitio web completo?
  4. ¿Qué pasa si eliminaste todas las recomendaciones del mundo?

Todas estas son preguntas perfectamente legítimas sobre el efecto causal de las recomendaciones, pero darían lugar a respuestas muy diferentes y requerirían experimentos muy diferentes. Los primeros dos podrían responderse utilizando experimentos A / B bastante estándar (aunque aún sería necesario controlar la plataforma para ejecutarlos). El tercero podría ser posible, pero sería extremadamente difícil (porque tendrías que hacer un experimento de campo masivo en muchos productos, empresas y usuarios). Y el último es imposible porque solo tenemos un mundo.

En efecto, lo que hicimos fue encontrar un experimento natural que simula la segunda pregunta de “qué pasaría si”. Podría ser que la pregunta más interesante es la tercera, como explica Xavier. O que los efectos a largo plazo de las recomendaciones sobre la experiencia del usuario y los ciclos de retroalimentación relacionados son tan enormes que cualquier experimento (A / B o natural) durante una duración razonable no podría hacer justicia a estas preguntas, en relación con el costos asociados.

Estos son buenos temas para debatir, ya que, según el uso previsto de los resultados, pueden ser de interés diferentes preguntas de tipo hipotético. Sin embargo, eso solo significa que se necesita una investigación más abierta para abordar estas preguntas, no necesariamente que nuestra formulación fuera “incorrecta”.

2.Validez del enfoque propuesto.

En primer lugar, ¡nos encantan los sistemas de recomendación!

Sin embargo, también reconocemos que puede haber una demanda correlacionada entre los productos. Esto es especialmente cierto para los productos que se recomiendan uno al lado del otro, porque para eso están optimizados la mayoría de los recomendadores (por ejemplo, “Los clientes que compraron esto también compraron”). Si es el caso de que “los usuarios no llegarán a los artículos sin recomendación”, entonces los problemas como la novedad (o más coloquialmente, el problema de Harry Potter) nunca existirían. La conclusión es que hay un espectro: hay muchas recomendaciones que son novedosas e interesantes que un usuario no habría encontrado de otra manera, y luego hay otras que un usuario ya podría conocer o ser capaz de encontrar fácilmente (por ejemplo, recomendar Harry Potter I junto a Harry Potter II). Esta es la razón por la que llamamos a la estimación observacional de CTR como la estimación ingenua, porque descuida este espectro de acciones contrafactuales de los usuarios: ¿qué hubiera pasado si dicha recomendación no se mostrara en la página de Harry Potter II?

Con el objetivo así establecido, podríamos haber emprendido varias formas empíricamente. Según los datos disponibles, elegimos estudiar el impacto de las recomendaciones más populares de Amazon, “Los clientes que compraron esto también compraron” y utilizaron los clics como medida de resultado. Si bien estamos de acuerdo en que los clics no equivalen a compras reales, aún dan una señal útil sobre la actividad del usuario. Repetir el análisis de los datos de compra es ciertamente interesante y estamos buscando esto para otro dominio. Sin embargo, es importante tener en cuenta que el método en sí no depende de una medida de resultado particular, por lo que podría aplicarse fácilmente a los datos de compra o cualquier otra medida de satisfacción del usuario.

Sí, los experimentos naturales no son perfectos.

Para poner nuestro método en perspectiva, es importante darse cuenta de que cuando se trata de inferencia causal con datos de observación, no hay almuerzos gratis. Los métodos actuales para estimar el efecto causal de las recomendaciones usan modelos complicados para estimar el comportamiento contrafáctico, o usan la variación de eventos externos de fuente única (“shocks”), como las sugerencias de libros de Oprah Winfrey. En el primero, los resultados son aplicables a todos los productos, pero su validez depende de la precisión del modelado. En este último, se espera que las estimaciones sean válidas para el choque, pero pueden no ser fácilmente generalizables.

Por estas razones, propusimos un método basado en datos para la inferencia causal que conserva la validez de un experimento natural pero también aumenta la generalización al encontrar miles de experimentos naturales. Eso todavía nos deja con preocupaciones específicas para el dominio del sistema de recomendación, discutamos una por una.

P1: ¿Se espera que el CTR suba o baje durante una descarga?

Esta es una pregunta con la que luchamos cuando nos propusimos hacer la investigación, porque la utilidad de la estimación se basa en esta suposición. Eventualmente, nos dimos cuenta de que siempre se podían encontrar escenarios para choques que pueden disminuir o aumentar el CTR observado durante un choque. Xavier proporciona un escenario en el que se espera que el CTR disminuya durante un gran aumento repentino en el tráfico hacia un producto. Por el contrario, puede suceder que los usuarios habituales ya estén familiarizados con los productos recomendados y, por lo tanto, ignoren las recomendaciones, mientras que los nuevos usuarios con una mayor demanda de dichos productos pueden estar más inclinados a hacer clic (recuerde, Amazon utiliza el filtro colaborativo ítem-ítem en cada página del producto). Además, los diferentes choques pueden deberse a diferentes razones, por lo que no está claro a priori que el CTR sea necesariamente menor durante el choque.

En cualquier caso, en un entorno práctico, uno puede tener más información sobre los usuarios. Luego, algunas de las preocupaciones se pueden desenredar fácilmente seleccionando los shocks solo para los nuevos usuarios, o entre los usuarios habituales en la categoría del producto.

P2: ¿Qué tan rápido reacciona un sistema de recomendación a los cambios de popularidad?

Hicimos un análisis simple de los datos de clic para ver con qué frecuencia cambian las recomendaciones en Amazon y descubrimos que 1 día era un límite bastante conservador. También es importante tener en cuenta que buscamos choques en el producto focal, no necesariamente en los productos recomendados, lo que disminuye las posibilidades de que esas recomendaciones cambien rápidamente.

Una vez más, en un entorno práctico con datos más precisos, uno puede hacer un mejor trabajo mirando por separado el CTR para los subconjuntos donde las recomendaciones no cambian.

Dicho esto, con los datos de observación, uno nunca puede descartar todos los factores de confusión. Como con cualquier otra técnica basada en experimentos naturales, reconocemos estas limitaciones en el documento.

3. Interpretación de los resultados.

Es por eso que nos gustaría enfatizar que no es una cuestión de esto o aquello entre los métodos de observación y las pruebas A / B. En general, cualquier métrica o experimento no podrá resumir los efectos de un sistema de recomendación. Más bien, será más útil observar los efectos a través de diferentes nociones de “utilidad”. Nuestra estrategia basada en descargas es uno de esos esfuerzos para cuantificar el impacto de las recomendaciones, y se puede usar junto con las pruebas A / B para evaluar los sistemas de recomendación.

Es cierto que nuestra publicación de blog no aborda estos problemas en detalle, pero el objetivo era escribir una versión menos técnica (para ser utilizada como ejemplo en clase), en lugar de presentar una justificación exhaustiva de los métodos. Esperamos que los detalles en el documento, junto con esta respuesta, aclaren algunas de las preocupaciones planteadas por Xavier.

Lo que sigue es una refutación algo detallada del artículo al que se hace referencia en la pregunta (por cierto, si no desea leer el documento completo, puede leer una publicación resumida del blog del primer autor aquí). Esto viene en respuesta a varias personas que me pidieron detalles de por qué pensé que el documento tenía fallas. Explicar esto requirió una redacción más larga y elaborada que la que podría incluir en un par de tweets.

Creo que este documento es un ejemplo interesante de un problema importante que ocurre con la investigación “aplicada” en la que los grandes nombres publican artículos con poco rigor científico o empírico, pero las conclusiones se aceptan como válidas por su procedencia. El documento en sí no está “equivocado” en términos matemáticos / estadísticos. Sin embargo, todos conocemos la cita de Mark Twain relacionada con mentiras y estadísticas. De manera similar, en esta investigación hay fallas en diferentes partes del proceso, comenzando con la formulación del problema y terminando con algunas de las afirmaciones. Los enfoques estadísticamente sólidos se utilizan para justificar los hallazgos que responden a formulaciones incorrectas y los resultados se presentan sin ninguna validación sólida. Los autores de este artículo son investigadores extremadamente respetados en sus campos. Es por eso que me preocupa que sus reclamos sean aceptados sin una lectura crítica y sean ampliamente citados y citados. Esa es mi principal motivación para tratar de “dejar las cosas claras”.

La publicación de blog que mencioné anteriormente es mucho peor que el documento, ya que ignora muchas de las limitaciones del enfoque propuesto, algunas de las cuales se describen en el documento en sí. Dicho esto, el documento también tiene problemas importantes.

Esta respuesta se ha vuelto mucho más larga de lo que esperaba (aunque evité intencionalmente muchos detalles en la refutación). Entonces, creo que es bueno que resuma los principales problemas con el enfoque antes de pasar a la discusión:

  • La formulación experimental es incorrecta.
  • Las suposiciones sobre la forma en que funcionan los sistemas de recomendación son incorrectas
  • Las definiciones de los conceptos centrales son demasiado restrictivas y no reflejan la realidad práctica.
  • Las estimaciones están sujetas a tantos supuestos y restricciones que no hay garantía de que sean buenas.
  • Existen serias preocupaciones sobre cómo cualquiera de los resultados puede generalizarse debido a las limitaciones de los datos y el enfoque.
  • Las estimaciones finales no se comparan con nada razonable.

Como dice el autor principal en su blog, no se trata tanto de estar en lo correcto o lo incorrecto, sino de ser engañoso. Mi principal afirmación es que la estimación ofrecida por los autores y su método es mucho más engañosa que la que intentan corregir. Lo baso en mi refutación a continuación, pero también en mi experiencia personal de años construyendo sistemas de recomendación. Estoy bastante seguro de que no sería difícil encontrar muchos profesionales que se pongan de mi lado (espero con ansias eso en los comentarios): una estimación del 8% para el impacto de las recomendaciones en Amazon es un número ridículamente bajo y las estimaciones citados como engañosos por los autores (10-30%) están mucho más en línea con lo que vemos en la práctica.

Entonces empecemos.

¿De qué se trata este artículo y por qué tiene poco sentido?

En pocas palabras, el objetivo de este documento es ofrecer una alternativa económica a las pruebas A / B. En situaciones prácticas, realizaría una prueba aleatoria A / B para determinar cuál es el impacto de un sistema de recomendación. Sin embargo, eso no siempre es posible. Es por eso que los autores proponen un enfoque diferente. En sus propias palabras:

“Uno podría, por supuesto, controlar la demanda correlacionada ejecutando experimentos en los que las recomendaciones se activaban o desactivaban aleatoriamente en todo el sitio para obtener estimaciones causales. (…) Desafortunadamente, los experimentos de este tipo son costosos de ejecutar en términos de tiempo o ingresos y también pueden afectar negativamente la experiencia del usuario “

“Nuestro método es conceptualmente simple y también práctico, ya que solo requiere acceso a recuentos separados de tráfico impulsado por recomendaciones y visitas totales a páginas individuales a lo largo del tiempo, datos que están fácilmente disponibles para los profesionales que ejecutan sus propios sistemas de recomendación y de bajo costo en comparación con la ejecución de A / Pruebas B “

Esto en sí mismo ya es engañoso. No hay forma de que este enfoque pueda ser una buena alternativa a las pruebas A / B. Tengo mis dudas de que esto incluso represente un ejercicio académico interesante, pero estoy bastante seguro de que ninguna aplicación práctica debería elegir esto en lugar de una prueba A / B.

Lo que empeora las cosas es que si esto realmente es una alternativa a las pruebas A / B, los autores deberían haber comparado sus resultados con uno. En realidad, como veremos, los autores no comparan su resultado con ninguna otra cosa. Estaría de acuerdo con aceptar esta falta de validación experimental si los autores fueran de la academia. Pero, los autores trabajan en Microsoft, una compañía que ejecuta miles de pruebas A / B cada mes. Incluso tienen figuras destacadas de pruebas A / B, como Ronny Kohavi, como colegas. Me interesaría mucho escuchar lo que dicen sobre este enfoque como una alternativa sólida a las pruebas A / B. Lo que sí sé con certeza es que incluso MSFT no se basa en medir el CTR para evaluar sus recomendaciones (ver Siete reglas prácticas para los experimentadores del sitio web, por ejemplo).

Entonces, para comenzar, tenemos un documento que propone una alternativa barata a las pruebas A / B para medir el efecto de los sistemas de recomendación. Pero los autores no validan la alternativa comparándola con nada, y mucho menos con una prueba A / B. Además, como veremos a continuación, hay muchas razones por las cuales el enfoque en sí parece extremadamente difícil de confiar.

Algunos supuestos

Aquí hay otro párrafo importante en la Introducción del documento.

“(…) se han realizado ejercicios (…), que conducen a estimaciones de que los recomendadores generan aproximadamente el 10-30% de la actividad y los ingresos del sitio. Pero estas estimaciones probablemente exageran la verdadera estimación causal, posiblemente por una gran cantidad. Para ver por qué, considere a los usuarios que visitan Compras en línea de productos electrónicos, indumentaria, computadoras, libros, DVD y más en busca de un par de guantes de invierno. Al ver la página del producto para los guantes, algunos usuarios pueden notar un sombrero de invierno que aparece como una recomendación y hacer clic en él para continuar navegando. Según el enfoque ingenuo que simplemente cuenta los clics, esta vista se atribuiría al sistema de recomendación. Pero la pregunta en la que nos centramos aquí es si el recomendante hizo que estos usuarios vieran otro producto, en este caso un gorro de invierno, o si lo hubieran hecho de todos modos en un mundo contrafactual en el que el recomendante no existía. En este ejemplo, parece bastante probable que los usuarios que buscan guantes de invierno estén interesados ​​en la ropa de invierno en general. En ausencia de una recomendación, por lo tanto, dicho usuario podría haber realizado una búsqueda por separado para un sombrero de invierno y terminar en la misma página independientemente; por lo tanto, no se puede decir que el recomendante haya causado la visita en el sentido estrictamente contrafáctico “.

Hay mucho en ese párrafo, así que analicemos:

Los autores afirman que las estimaciones del 10-30% de la actividad del sitio y los ingresos ” probablemente exageran la verdadera estimación causal, posiblemente por una gran cantidad”. En otras palabras, los sistemas de recomendación no causan un beneficio tan grande para un sitio. Tenga esto en cuenta para el resto de la discusión.

La explicación principal que utilizan los autores para explicar que la estimación “inexacta” es un enfoque “ingenuo” que atribuye cualquier visita proveniente de una recomendación como la causa de esa visita. Pero, afirman los autores, el usuario habría visitado esa página de todos modos en ausencia de la recomendación . Paremos aquí por un segundo, porque este es un problema muy importante con el enfoque de los autores.

Permítanme aclarar esto: si no recomienda un elemento, los usuarios no lo accederán de todos modos . En otras palabras, en ausencia de una recomendación, los usuarios pueden hacer principalmente una de dos cosas: (1) conformarse con un elemento diferente, (2) abandonar su servicio e ir a otro lugar. En realidad, la segunda opción es muy importante y está relacionada con otra falla: equiparar el impacto del sistema de recomendación con el CTR. Un sistema de recomendación no solo se define por tener un CTR mejor o peor, también, lo que es más importante, disminuye la carga sobre el usuario para encontrar lo “correcto”. Si al usuario le toma 3 segundos encontrar algo que satisfaga sus necesidades en el sitio web A y 3 minutos en el sitio web B, inevitablemente gravitará hacia el uso del sitio web A en el mediano plazo. En otras palabras, el sistema de recomendación no solo hace que se visite un producto, sino que también provoca un uso repetido, que puede o no estar bien correlacionado con los clics.

Volviendo al ejemplo en el documento, aquí está mi interpretación: la cuestión de si los usuarios que hicieron clic en la recomendación del sombrero de invierno lo hubieran hecho de todos modos no tiene sentido. Hay 200k resultados para “sombrero de invierno” en Amazon (ver captura de pantalla a continuación). Lo que sí puedo decir con certeza es que el usuario no habría comprado “ese sombrero de invierno en particular” si no hubiera sido recomendado. Además, si no hubiera ninguna recomendación, le habría llevado al usuario unos 30 minutos de frustrante experiencia de búsqueda y navegación solo para encontrar algunos artículos de invierno. Lo más probable es que después de algunas experiencias como esa hubieran recurrido a otro sitio. O, peor aún, se dirigió al centro comercial ya que la experiencia de compra en la web ahora sería tan dolorosa como lo es en la vida real.

¿Qué es una recomendación de todos modos?

Otro problema con el enfoque en el documento es cuán restrictiva es su definición de una “recomendación”. Recuerde que el objetivo del documento es evaluar qué aumento de visitas / ingresos es causado por las recomendaciones en comparación con todo lo demás. Por lo tanto, lo que usted define como una recomendación es muy importante ya que afectará su análisis de lo que se incluye en esa categoría. Veamos qué dicen los autores sobre esto:

“La presencia de códigos de referencia nos permite separar el tráfico de productos en dos canales distintos: vistas” directas “, definidas como el tráfico que proviene de la navegación o búsqueda directa (…); y vistas de “recomendación” que provienen de clics en elementos recomendados “

Ok, para empezar, la definición de una “recomendación” está restringida a los clics que se etiquetan explícitamente como una recomendación. No voy a discutir sobre el hecho de que los resultados de búsqueda son personalizados y pueden inyectar todo tipo de recomendaciones, pero es bastante obvio que cuando navegas en un sitio como Amazon, las recomendaciones se introducen por todas partes. Asignar solo un positivo a los clics que llegan a través de un tipo particular de clics es una definición muy restrictiva. Pero, empeora:

“Antes de continuar, observamos que los paneles de la derecha de la Figura 2 y la Figura 3 cuentan la fracción del tráfico entrante a las páginas de productos referidas a través de todo tipo de recomendaciones en Amazon. Aunque esta es una cantidad natural a medir para una estimación ingenua del impacto del recomendante, en el resto del documento enfocamos nuestra atención en lugar de clics salientes de las páginas de productos. La razón es que nuestra estrategia de identificación, que se describe a continuación, se basa en estimar la tasa de clics de salida en productos que reciben descargas repentinas en el tráfico. Además, también limitamos nuestra atención a las recomendaciones de “Los clientes que compraron esto también compraron”, que corresponden al código de referencia sim ref = pd, como en la Figura 1. Estas recomendaciones no solo capturan la mayoría de los clics de la página de productos salientes, sino que son También se define de manera consistente en las categorías de productos y se normaliza fácilmente por el número de páginas vistas a los productos correspondientes. Aunque tiene sentido que nuestro método se centre en el tráfico saliente para un solo tipo de recomendación en lugar de los clics entrantes de todo tipo, observamos que las estimaciones ingenuas que informamos en la Sección 5 serán algo menores que en la Figura 2 y la Figura 3. “

Es genial que los autores tengan muy claro esto. Debido a las limitaciones en su enfoque, solo pueden medir un subconjunto de un subconjunto de lo que generalmente se considera una recomendación. Tengamos eso en cuenta. Es un poco desafortunado que sigan usando la palabra ingenua para referirse a una estimación mucho mejor de lo que su enfoque puede proporcionar, pero supongo que deberíamos estar bien con cierta cantidad de libertad creativa en la elección de adjetivos aquí.

Hay otra restricción relacionada que los autores introducen en lo que consideran una recomendación “válida”. Esto tiene que ver con su definición de un clic de conveniencia:

“Los clics de conveniencia, en otras palabras, representan instancias en las que el recomendado simplemente proporciona una manera más fácil para que los usuarios lleguen a un producto que de otro modo hubieran encontrado”.

Entonces, está claro que los autores, en un esfuerzo por medir el estricto efecto causal , descartan por completo uno de los impactos beneficiosos más importantes de los sistemas de recomendación: harán la vida más fácil / más conveniente para sus usuarios y los mantendrán comprometidos a largo plazo para que compren más / se vuelvan más felices con su servicio. Esta no es una característica del enfoque, es un error. Volviendo a los objetivos iniciales, recuerde que los autores están tratando de estimar los efectos que se medirían mejor a través de la prueba A / B. En una prueba A / B en la que mide el impacto de un sistema de recomendación, debería estar interesado en medir el efecto de sus recomendaciones para facilitar la vida de sus usuarios. De hecho, es muy probable que esto conduzca a más actividad e ingresos. Eso no es una confusión, es un beneficio inherente de usar un sistema de recomendación.

Además, volviendo al ejemplo del “sombrero de invierno”, debe quedar claro que es muy poco probable que el usuario haya comprado exactamente el mismo artículo que estaba recomendando. Puede que le importe o no, pero esta suposición no se cumple en la mayoría de los casos.

Como nota final sobre esta visión muy restrictiva sobre qué es una recomendación y cómo debemos medir su impacto. Esto es lo que los autores tienen que decir sobre cómo definir el impacto :

“Nos gustaría estimar el impacto de un sistema de recomendación, medido por el número de páginas de productos adicionales que genera, en comparación con un estado hipotético del mundo en el que no existe la recomendación”.

Esta definición no solo descuenta los beneficios a medio plazo al mejorar la “conveniencia” como se mencionó anteriormente, sino que también equipara las visitas a la página con el impacto. Eso en sí mismo está mal, pero entiendo que no hay forma de evitarlo debido a “limitaciones en el enfoque”. El impacto de la recomendación debe medirse en una acción positiva (por ejemplo, una compra), no en una vista de página. De hecho, puede haber muchas formas en que estos dos están inversamente correlacionados, ya que puede aumentar las visitas a la página básicamente haciendo que la vida sea más difícil para los usuarios, de modo que necesiten visitar más páginas para llegar a una acción positiva. .

Choques

Una de las ideas fundamentales para el enfoque descrito en el documento es el uso de “choques” o ” productos que experimentan grandes y repentinos aumentos en el tráfico” . Según los autores, la mejor manera de medir el impacto de un sistema es ver cómo reacciona ante una “anomalía” para que luego pueda analizar los diferentes factores que influyen en él. En sus propias palabras: “La esperanza es que tales” choques exógenos “sean análogos a un experimento controlado en el que el experimentador expone al azar a las personas a páginas de productos y mide la actividad de recomendación resultante”.

Para que el modelo de choque funcione, es importante suponer que “la demanda del producto recomendado correspondiente es constante” . Si eso es cierto, explican los autores, puede estimar el efecto causal del sistema de recomendación:

“Cuando se sabe que la demanda del producto recomendado es constante, cualquier aumento en los clics del producto focal puede atribuirse al recomendante, y por lo tanto podemos estimar su efecto causal simplemente dividiendo el cambio observado en los clics de recomendación durante la conmoción por el cambio exógeno en el tráfico durante el mismo período “.

Existen muchas limitaciones prácticas con este enfoque. Para ser justos, algunos de ellos son reconocidos por los autores en el documento y los mencionaré brevemente a continuación. Sin embargo, hay una pareja que no lo son y son muy significativas. Se relacionan con la falta de comprensión de cómo las fluctuaciones en la popularidad afectan tanto a los usuarios como a los algoritmos de aprendizaje automático:

No debe esperarse que el CTR para un producto recomendado sea constante durante una descarga. De hecho, ¡el CTR a una recomendación podría estar inversamente correlacionado con un producto relacionado que experimenta un shock! Esto es particularmente cierto para los artículos que están muy relacionados e incluso podrían ser sustitutos entre sí. Usemos los libros como ejemplo (tenga en cuenta que, según los autores, los libros están sobrerrepresentados en su conjunto de datos). Puede ser cierto que “usuarios que compraron” Superintelligence de Nick Bostrom también compraron los libros a continuación. En ausencia de un “shock”, podría tener la tentación de hacer clic (comprar) “Algorithms To Live By” en lugar de mi objetivo original. Sin embargo, el hecho de que el original esté en estado de shock (es decir, he oído hablar de él hoy en Ophra) hace que sea mucho más improbable que haga clic en la recomendación. De hecho, la mayoría de las personas que visitarán la página de Superinteligencia esos días no serán modeladas correctamente por el sistema de recomendación que probablemente utiliza un enfoque de filtrado colaborativo (¡y basar la recomendación en el comportamiento pasado!). Por lo tanto, se debe esperar que el CTR experimente grandes cambios en esas circunstancias que conducen a una muy mala estimación.

Los algoritmos de recomendación responden rápidamente a los cambios de popularidad . Una de las razones por las que los autores argumentan que es bueno usar los shocks para estimar el efecto es que ” los cambios repentinos (es decir, los shocks) limitan la variabilidad potencial en otros elementos del ecosistema web (por ejemplo, un cambio en las clasificaciones de búsqueda) que podrían afectar el relación entre la demanda no observada ujt para el producto j y el tráfico observado djt ”. En otras palabras, necesitan obtener la mayor cantidad de datos posible en el menor tiempo posible para garantizar cierta estabilidad en el ecosistema. Sin embargo, esto no tiene en cuenta el hecho de que la mayoría de los sistemas de recomendación (y búsqueda) utilizan algoritmos de aprendizaje automático que utilizan características que pueden ser muy reactivas a los cambios de popularidad. De hecho, no solo los cambios de popularidad, sino también los cambios de CTR, como los mencionados anteriormente, probablemente afecten la clasificación de búsqueda y recomendaciones muy rápidamente. De hecho, los algoritmos están diseñados para responder de esa manera.

Limitaciones conocidas y reconocidas del enfoque

Además de todas las preocupaciones y limitaciones anteriores, hay muchas más que los propios autores señalan a lo largo del artículo. Es muy bueno que lo hagan, pero eso no hace que su impacto en la validez del enfoque sea menos significativo. No entraré en muchos detalles ya que puedes leer el documento para eso, pero me gustaría enumerarlos aquí por razones de integridad:

  1. La estimación no es el efecto de tratamiento promedio que se obtendría de una prueba A / B, sino un efecto de tratamiento promedio local que solo estima el efecto para los usuarios que responden a los choques.
  2. El análisis se limita a “Los clientes que compraron esto también compraron”
  3. Las recomendaciones en el análisis no son personalizadas.
  4. Algunas categorías populares (por ejemplo, libros) estaban sobrerrepresentadas
  5. Los usuarios con intereses muy específicos están sobrerrepresentados
  6. Aumentar el valor de Beta restringió la muestra a productos con recomendaciones menos interesantes, reduciendo así el CTR. El hecho de que este parámetro se establezca con el único objetivo de obtener “datos suficientes” para el análisis podría levantar algunas cejas. Puede leer más al respecto en la sección 5.1 del documento.
  7. Su enfoque se limita a estudiar el efecto de las recomendaciones que provienen de un solo punto focal ( Nota: según los autores, esto significa que su estimación es una sobreestimación. Sin embargo, no reconocen que la mayoría de las otras limitaciones realmente están afectando la estimación en la dirección opuesta o de manera desconocida)
  8. El precio y los descuentos en los productos pueden afectar la estimación *
  9. Efectos de vacaciones *
  10. Distribución de características de usuario y producto *

* Estos últimos 3 se discuten en la sección 5.3 del documento. Los autores explican que no ven un impacto significativo de estos efectos. Realmente no estoy convencido por su análisis de estos tres efectos, ya que hay muy pocos datos para acompañar.

Resultados y comparación

Al final, los autores concluyen:

“Dadas todas estas advertencias, es alentador que si aplicamos nuestra estimación de λˆ = 0.25 a todo el tráfico de recomendación como se describe en la Figura 3, calculamos que la fracción total de tráfico causada por el recomendante es aproximadamente del 8%, una cifra que es sorprendentemente consistente con los resultados de un experimento aleatorio reciente [Belluf et al. 2012] “.

Esta comparación es la guinda del pastel. El documento al que se hace referencia aquí es un póster bastante “exótico” que se publicó en Recsys 2012. Asistí a la conferencia en Dublín y no recuerdo el documento en absoluto, lo cual no es una muy buena señal. Dicho esto, la comparación que hacen es aún más extraña. Creo que se están refiriendo a que sus resultados son consistentes con una de las métricas en el documento, las visitas a la página por usuario. Sin embargo, esa es una métrica muy diferente de lo que estima este artículo. Además, no señalan que las métricas más importantes se estiman en hasta 20% (8-20% para ser claro). Entonces, honestamente, no entiendo cómo esa referencia puede validar ninguno de estos trabajos.

Conclusión

Este es un artículo de investigadores ampliamente conocidos y respetados. El documento presenta un enfoque para estimar el impacto de los sistemas de recomendación que tiene fallas de muchas maneras. Además, los autores utilizan el enfoque para estimar un resultado en un conjunto de datos y afirman que su estimación es más precisa que otras sin una comparación adecuada con otros enfoques o datos experimentales. Espero que algunas de las inquietudes que he planteado se tengan en cuenta al referirme a este documento en trabajos futuros y evitar que los resultados sean aceptados ciegamente como verdaderos.

Como nota final, me gustaría compartir al menos un contrapunto de cuán efectivos son los sistemas de recomendación. Lamentablemente, no puedo compartir los resultados de las pruebas A / B de las empresas para las que he trabajado. Sin embargo, hay algunos datos públicos de Netflix a los que me puedo referir. En el artículo “El sistema de recomendación de Netflix: algoritmos, valor comercial e innovación”, Carlos Gómez y Neil Hunt comparten el siguiente gráfico:

Este gráfico proviene directamente de datos experimentales (pruebas A / B) y se centra en una métrica relacionada con el CTR, pero mucho mejor. Take-Rate es la fracción de impresiones que resultan en una acción positiva. En el caso de Netflix sería una obra de teatro, pero en Amazon sería una compra. El gráfico compara recomendaciones personalizadas con no personalizadas. Esto debe tomarse como un límite inferior en el efecto de una recomendación porque solo compara una estrategia de recomendación con una mucho mejor. El efecto de la personalización depende de la posición en el rango ya que, entre otras cosas, los elementos que se encuentran en el rango inferior no se muestran lo suficiente como para tener una buena estimación de la tasa de toma. En cualquier caso, está claro que la personalización aumenta la tasa de toma de 2X a 4X para el líder de la clasificación.

Gracias por una discusión tan estimulante. Todavía estoy trabajando en el contenido y lo estoy disfrutando inmensamente. Un elemento me llamó la atención: las pruebas A / B no son la única forma de establecer un control. La regresión de efectos fijos combinada con el análisis de eventos de las estadísticas sociológicas utiliza a una sola persona como su propio control para analizar los factores que causan un evento, eliminando de los efectos todo lo que no estaba previamente presente. En este escenario de evaluación, otros mecanismos de compra podrían compararse con los usos recomendados. Esta técnica es estadísticamente mucho menos potente y requiere que se incluyan todos los factores dinámicos para la precisión, pero es teóricamente posible sin A / B tradicional para tener controles experimentales válidos.

Daniel McEnnis

More Interesting

¿Cómo puedo comenzar el trabajo de investigación sobre aprendizaje automático y cómo puedo elegir un tema o problema en el aprendizaje automático?

¿Qué piensan los científicos de los expertos en SEO?

¿Cuáles son las diferencias entre Apache Spark y el Tensor Flow de Google?

¿El libro "Aprendizaje automático: una perspectiva algorítmica" aborda la implementación en profundidad?

¿Cómo puedo hacer que mi computadora esté disponible para Google, Quora, Facebook, para poder contribuir a sus tareas de aprendizaje automático durante el tiempo de inactividad?

¿Cuáles son los principales problemas con el uso de la codificación one-hot?

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Qué es el cambio de covariable?

¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?

¿Tendrán alguna coincidencia los modelos gráficos probabilísticos y el aprendizaje profundo?

¿Puedo ser un ingeniero de aprendizaje automático con habilidades en desarrollo web y móvil?

¿Qué es una regresión logística condicional?

¿Cuál es la mejor manera de predecir una clase +/- en un escenario de aprendizaje automático donde tengo k características trinarias y un conjunto de datos del orden de cientos o miles?

¿Cuál es la motivación de Google para el código abierto del modelo de TensorFlow para problemas ML / NLP como el resumen automático de texto?

Cómo usar el método probabilístico para probar el problema de Ramsey multicolor