Lo que sigue es una refutación algo detallada del artículo al que se hace referencia en la pregunta (por cierto, si no desea leer el documento completo, puede leer una publicación resumida del blog del primer autor aquí). Esto viene en respuesta a varias personas que me pidieron detalles de por qué pensé que el documento tenía fallas. Explicar esto requirió una redacción más larga y elaborada que la que podría incluir en un par de tweets.
Creo que este documento es un ejemplo interesante de un problema importante que ocurre con la investigación “aplicada” en la que los grandes nombres publican artículos con poco rigor científico o empírico, pero las conclusiones se aceptan como válidas por su procedencia. El documento en sí no está “equivocado” en términos matemáticos / estadísticos. Sin embargo, todos conocemos la cita de Mark Twain relacionada con mentiras y estadísticas. De manera similar, en esta investigación hay fallas en diferentes partes del proceso, comenzando con la formulación del problema y terminando con algunas de las afirmaciones. Los enfoques estadísticamente sólidos se utilizan para justificar los hallazgos que responden a formulaciones incorrectas y los resultados se presentan sin ninguna validación sólida. Los autores de este artículo son investigadores extremadamente respetados en sus campos. Es por eso que me preocupa que sus reclamos sean aceptados sin una lectura crítica y sean ampliamente citados y citados. Esa es mi principal motivación para tratar de “dejar las cosas claras”.
La publicación de blog que mencioné anteriormente es mucho peor que el documento, ya que ignora muchas de las limitaciones del enfoque propuesto, algunas de las cuales se describen en el documento en sí. Dicho esto, el documento también tiene problemas importantes.
Esta respuesta se ha vuelto mucho más larga de lo que esperaba (aunque evité intencionalmente muchos detalles en la refutación). Entonces, creo que es bueno que resuma los principales problemas con el enfoque antes de pasar a la discusión:
- La formulación experimental es incorrecta.
- Las suposiciones sobre la forma en que funcionan los sistemas de recomendación son incorrectas
- Las definiciones de los conceptos centrales son demasiado restrictivas y no reflejan la realidad práctica.
- Las estimaciones están sujetas a tantos supuestos y restricciones que no hay garantía de que sean buenas.
- Existen serias preocupaciones sobre cómo cualquiera de los resultados puede generalizarse debido a las limitaciones de los datos y el enfoque.
- Las estimaciones finales no se comparan con nada razonable.
Como dice el autor principal en su blog, no se trata tanto de estar en lo correcto o lo incorrecto, sino de ser engañoso. Mi principal afirmación es que la estimación ofrecida por los autores y su método es mucho más engañosa que la que intentan corregir. Lo baso en mi refutación a continuación, pero también en mi experiencia personal de años construyendo sistemas de recomendación. Estoy bastante seguro de que no sería difícil encontrar muchos profesionales que se pongan de mi lado (espero con ansias eso en los comentarios): una estimación del 8% para el impacto de las recomendaciones en Amazon es un número ridículamente bajo y las estimaciones citados como engañosos por los autores (10-30%) están mucho más en línea con lo que vemos en la práctica.
Entonces empecemos.
¿De qué se trata este artículo y por qué tiene poco sentido?
En pocas palabras, el objetivo de este documento es ofrecer una alternativa económica a las pruebas A / B. En situaciones prácticas, realizaría una prueba aleatoria A / B para determinar cuál es el impacto de un sistema de recomendación. Sin embargo, eso no siempre es posible. Es por eso que los autores proponen un enfoque diferente. En sus propias palabras:
“Uno podría, por supuesto, controlar la demanda correlacionada ejecutando experimentos en los que las recomendaciones se activaban o desactivaban aleatoriamente en todo el sitio para obtener estimaciones causales. (…) Desafortunadamente, los experimentos de este tipo son costosos de ejecutar en términos de tiempo o ingresos y también pueden afectar negativamente la experiencia del usuario “
“Nuestro método es conceptualmente simple y también práctico, ya que solo requiere acceso a recuentos separados de tráfico impulsado por recomendaciones y visitas totales a páginas individuales a lo largo del tiempo, datos que están fácilmente disponibles para los profesionales que ejecutan sus propios sistemas de recomendación y de bajo costo en comparación con la ejecución de A / Pruebas B “
Esto en sí mismo ya es engañoso. No hay forma de que este enfoque pueda ser una buena alternativa a las pruebas A / B. Tengo mis dudas de que esto incluso represente un ejercicio académico interesante, pero estoy bastante seguro de que ninguna aplicación práctica debería elegir esto en lugar de una prueba A / B.
Lo que empeora las cosas es que si esto realmente es una alternativa a las pruebas A / B, los autores deberían haber comparado sus resultados con uno. En realidad, como veremos, los autores no comparan su resultado con ninguna otra cosa. Estaría de acuerdo con aceptar esta falta de validación experimental si los autores fueran de la academia. Pero, los autores trabajan en Microsoft, una compañía que ejecuta miles de pruebas A / B cada mes. Incluso tienen figuras destacadas de pruebas A / B, como Ronny Kohavi, como colegas. Me interesaría mucho escuchar lo que dicen sobre este enfoque como una alternativa sólida a las pruebas A / B. Lo que sí sé con certeza es que incluso MSFT no se basa en medir el CTR para evaluar sus recomendaciones (ver Siete reglas prácticas para los experimentadores del sitio web, por ejemplo).
Entonces, para comenzar, tenemos un documento que propone una alternativa barata a las pruebas A / B para medir el efecto de los sistemas de recomendación. Pero los autores no validan la alternativa comparándola con nada, y mucho menos con una prueba A / B. Además, como veremos a continuación, hay muchas razones por las cuales el enfoque en sí parece extremadamente difícil de confiar.
Algunos supuestos
Aquí hay otro párrafo importante en la Introducción del documento.
“(…) se han realizado ejercicios (…), que conducen a estimaciones de que los recomendadores generan aproximadamente el 10-30% de la actividad y los ingresos del sitio. Pero estas estimaciones probablemente exageran la verdadera estimación causal, posiblemente por una gran cantidad. Para ver por qué, considere a los usuarios que visitan Compras en línea de productos electrónicos, indumentaria, computadoras, libros, DVD y más en busca de un par de guantes de invierno. Al ver la página del producto para los guantes, algunos usuarios pueden notar un sombrero de invierno que aparece como una recomendación y hacer clic en él para continuar navegando. Según el enfoque ingenuo que simplemente cuenta los clics, esta vista se atribuiría al sistema de recomendación. Pero la pregunta en la que nos centramos aquí es si el recomendante hizo que estos usuarios vieran otro producto, en este caso un gorro de invierno, o si lo hubieran hecho de todos modos en un mundo contrafactual en el que el recomendante no existía. En este ejemplo, parece bastante probable que los usuarios que buscan guantes de invierno estén interesados en la ropa de invierno en general. En ausencia de una recomendación, por lo tanto, dicho usuario podría haber realizado una búsqueda por separado para un sombrero de invierno y terminar en la misma página independientemente; por lo tanto, no se puede decir que el recomendante haya causado la visita en el sentido estrictamente contrafáctico “.
Hay mucho en ese párrafo, así que analicemos:
Los autores afirman que las estimaciones del 10-30% de la actividad del sitio y los ingresos ” probablemente exageran la verdadera estimación causal, posiblemente por una gran cantidad”. En otras palabras, los sistemas de recomendación no causan un beneficio tan grande para un sitio. Tenga esto en cuenta para el resto de la discusión.
La explicación principal que utilizan los autores para explicar que la estimación “inexacta” es un enfoque “ingenuo” que atribuye cualquier visita proveniente de una recomendación como la causa de esa visita. Pero, afirman los autores, el usuario habría visitado esa página de todos modos en ausencia de la recomendación . Paremos aquí por un segundo, porque este es un problema muy importante con el enfoque de los autores.
Permítanme aclarar esto: si no recomienda un elemento, los usuarios no lo accederán de todos modos . En otras palabras, en ausencia de una recomendación, los usuarios pueden hacer principalmente una de dos cosas: (1) conformarse con un elemento diferente, (2) abandonar su servicio e ir a otro lugar. En realidad, la segunda opción es muy importante y está relacionada con otra falla: equiparar el impacto del sistema de recomendación con el CTR. Un sistema de recomendación no solo se define por tener un CTR mejor o peor, también, lo que es más importante, disminuye la carga sobre el usuario para encontrar lo “correcto”. Si al usuario le toma 3 segundos encontrar algo que satisfaga sus necesidades en el sitio web A y 3 minutos en el sitio web B, inevitablemente gravitará hacia el uso del sitio web A en el mediano plazo. En otras palabras, el sistema de recomendación no solo hace que se visite un producto, sino que también provoca un uso repetido, que puede o no estar bien correlacionado con los clics.
Volviendo al ejemplo en el documento, aquí está mi interpretación: la cuestión de si los usuarios que hicieron clic en la recomendación del sombrero de invierno lo hubieran hecho de todos modos no tiene sentido. Hay 200k resultados para “sombrero de invierno” en Amazon (ver captura de pantalla a continuación). Lo que sí puedo decir con certeza es que el usuario no habría comprado “ese sombrero de invierno en particular” si no hubiera sido recomendado. Además, si no hubiera ninguna recomendación, le habría llevado al usuario unos 30 minutos de frustrante experiencia de búsqueda y navegación solo para encontrar algunos artículos de invierno. Lo más probable es que después de algunas experiencias como esa hubieran recurrido a otro sitio. O, peor aún, se dirigió al centro comercial ya que la experiencia de compra en la web ahora sería tan dolorosa como lo es en la vida real.
¿Qué es una recomendación de todos modos?
Otro problema con el enfoque en el documento es cuán restrictiva es su definición de una “recomendación”. Recuerde que el objetivo del documento es evaluar qué aumento de visitas / ingresos es causado por las recomendaciones en comparación con todo lo demás. Por lo tanto, lo que usted define como una recomendación es muy importante ya que afectará su análisis de lo que se incluye en esa categoría. Veamos qué dicen los autores sobre esto:
“La presencia de códigos de referencia nos permite separar el tráfico de productos en dos canales distintos: vistas” directas “, definidas como el tráfico que proviene de la navegación o búsqueda directa (…); y vistas de “recomendación” que provienen de clics en elementos recomendados “
Ok, para empezar, la definición de una “recomendación” está restringida a los clics que se etiquetan explícitamente como una recomendación. No voy a discutir sobre el hecho de que los resultados de búsqueda son personalizados y pueden inyectar todo tipo de recomendaciones, pero es bastante obvio que cuando navegas en un sitio como Amazon, las recomendaciones se introducen por todas partes. Asignar solo un positivo a los clics que llegan a través de un tipo particular de clics es una definición muy restrictiva. Pero, empeora:
“Antes de continuar, observamos que los paneles de la derecha de la Figura 2 y la Figura 3 cuentan la fracción del tráfico entrante a las páginas de productos referidas a través de todo tipo de recomendaciones en Amazon. Aunque esta es una cantidad natural a medir para una estimación ingenua del impacto del recomendante, en el resto del documento enfocamos nuestra atención en lugar de clics salientes de las páginas de productos. La razón es que nuestra estrategia de identificación, que se describe a continuación, se basa en estimar la tasa de clics de salida en productos que reciben descargas repentinas en el tráfico. Además, también limitamos nuestra atención a las recomendaciones de “Los clientes que compraron esto también compraron”, que corresponden al código de referencia sim ref = pd, como en la Figura 1. Estas recomendaciones no solo capturan la mayoría de los clics de la página de productos salientes, sino que son También se define de manera consistente en las categorías de productos y se normaliza fácilmente por el número de páginas vistas a los productos correspondientes. Aunque tiene sentido que nuestro método se centre en el tráfico saliente para un solo tipo de recomendación en lugar de los clics entrantes de todo tipo, observamos que las estimaciones ingenuas que informamos en la Sección 5 serán algo menores que en la Figura 2 y la Figura 3. “
Es genial que los autores tengan muy claro esto. Debido a las limitaciones en su enfoque, solo pueden medir un subconjunto de un subconjunto de lo que generalmente se considera una recomendación. Tengamos eso en cuenta. Es un poco desafortunado que sigan usando la palabra ingenua para referirse a una estimación mucho mejor de lo que su enfoque puede proporcionar, pero supongo que deberíamos estar bien con cierta cantidad de libertad creativa en la elección de adjetivos aquí.
Hay otra restricción relacionada que los autores introducen en lo que consideran una recomendación “válida”. Esto tiene que ver con su definición de un clic de conveniencia:
“Los clics de conveniencia, en otras palabras, representan instancias en las que el recomendado simplemente proporciona una manera más fácil para que los usuarios lleguen a un producto que de otro modo hubieran encontrado”.
Entonces, está claro que los autores, en un esfuerzo por medir el estricto efecto causal , descartan por completo uno de los impactos beneficiosos más importantes de los sistemas de recomendación: harán la vida más fácil / más conveniente para sus usuarios y los mantendrán comprometidos a largo plazo para que compren más / se vuelvan más felices con su servicio. Esta no es una característica del enfoque, es un error. Volviendo a los objetivos iniciales, recuerde que los autores están tratando de estimar los efectos que se medirían mejor a través de la prueba A / B. En una prueba A / B en la que mide el impacto de un sistema de recomendación, debería estar interesado en medir el efecto de sus recomendaciones para facilitar la vida de sus usuarios. De hecho, es muy probable que esto conduzca a más actividad e ingresos. Eso no es una confusión, es un beneficio inherente de usar un sistema de recomendación.
Además, volviendo al ejemplo del “sombrero de invierno”, debe quedar claro que es muy poco probable que el usuario haya comprado exactamente el mismo artículo que estaba recomendando. Puede que le importe o no, pero esta suposición no se cumple en la mayoría de los casos.
Como nota final sobre esta visión muy restrictiva sobre qué es una recomendación y cómo debemos medir su impacto. Esto es lo que los autores tienen que decir sobre cómo definir el impacto :
“Nos gustaría estimar el impacto de un sistema de recomendación, medido por el número de páginas de productos adicionales que genera, en comparación con un estado hipotético del mundo en el que no existe la recomendación”.
Esta definición no solo descuenta los beneficios a medio plazo al mejorar la “conveniencia” como se mencionó anteriormente, sino que también equipara las visitas a la página con el impacto. Eso en sí mismo está mal, pero entiendo que no hay forma de evitarlo debido a “limitaciones en el enfoque”. El impacto de la recomendación debe medirse en una acción positiva (por ejemplo, una compra), no en una vista de página. De hecho, puede haber muchas formas en que estos dos están inversamente correlacionados, ya que puede aumentar las visitas a la página básicamente haciendo que la vida sea más difícil para los usuarios, de modo que necesiten visitar más páginas para llegar a una acción positiva. .
Choques
Una de las ideas fundamentales para el enfoque descrito en el documento es el uso de “choques” o ” productos que experimentan grandes y repentinos aumentos en el tráfico” . Según los autores, la mejor manera de medir el impacto de un sistema es ver cómo reacciona ante una “anomalía” para que luego pueda analizar los diferentes factores que influyen en él. En sus propias palabras: “La esperanza es que tales” choques exógenos “sean análogos a un experimento controlado en el que el experimentador expone al azar a las personas a páginas de productos y mide la actividad de recomendación resultante”.
Para que el modelo de choque funcione, es importante suponer que “la demanda del producto recomendado correspondiente es constante” . Si eso es cierto, explican los autores, puede estimar el efecto causal del sistema de recomendación:
“Cuando se sabe que la demanda del producto recomendado es constante, cualquier aumento en los clics del producto focal puede atribuirse al recomendante, y por lo tanto podemos estimar su efecto causal simplemente dividiendo el cambio observado en los clics de recomendación durante la conmoción por el cambio exógeno en el tráfico durante el mismo período “.
Existen muchas limitaciones prácticas con este enfoque. Para ser justos, algunos de ellos son reconocidos por los autores en el documento y los mencionaré brevemente a continuación. Sin embargo, hay una pareja que no lo son y son muy significativas. Se relacionan con la falta de comprensión de cómo las fluctuaciones en la popularidad afectan tanto a los usuarios como a los algoritmos de aprendizaje automático:
No debe esperarse que el CTR para un producto recomendado sea constante durante una descarga. De hecho, ¡el CTR a una recomendación podría estar inversamente correlacionado con un producto relacionado que experimenta un shock! Esto es particularmente cierto para los artículos que están muy relacionados e incluso podrían ser sustitutos entre sí. Usemos los libros como ejemplo (tenga en cuenta que, según los autores, los libros están sobrerrepresentados en su conjunto de datos). Puede ser cierto que “usuarios que compraron” Superintelligence de Nick Bostrom también compraron los libros a continuación. En ausencia de un “shock”, podría tener la tentación de hacer clic (comprar) “Algorithms To Live By” en lugar de mi objetivo original. Sin embargo, el hecho de que el original esté en estado de shock (es decir, he oído hablar de él hoy en Ophra) hace que sea mucho más improbable que haga clic en la recomendación. De hecho, la mayoría de las personas que visitarán la página de Superinteligencia esos días no serán modeladas correctamente por el sistema de recomendación que probablemente utiliza un enfoque de filtrado colaborativo (¡y basar la recomendación en el comportamiento pasado!). Por lo tanto, se debe esperar que el CTR experimente grandes cambios en esas circunstancias que conducen a una muy mala estimación.
Los algoritmos de recomendación responden rápidamente a los cambios de popularidad . Una de las razones por las que los autores argumentan que es bueno usar los shocks para estimar el efecto es que ” los cambios repentinos (es decir, los shocks) limitan la variabilidad potencial en otros elementos del ecosistema web (por ejemplo, un cambio en las clasificaciones de búsqueda) que podrían afectar el relación entre la demanda no observada ujt para el producto j y el tráfico observado djt ”. En otras palabras, necesitan obtener la mayor cantidad de datos posible en el menor tiempo posible para garantizar cierta estabilidad en el ecosistema. Sin embargo, esto no tiene en cuenta el hecho de que la mayoría de los sistemas de recomendación (y búsqueda) utilizan algoritmos de aprendizaje automático que utilizan características que pueden ser muy reactivas a los cambios de popularidad. De hecho, no solo los cambios de popularidad, sino también los cambios de CTR, como los mencionados anteriormente, probablemente afecten la clasificación de búsqueda y recomendaciones muy rápidamente. De hecho, los algoritmos están diseñados para responder de esa manera.
Limitaciones conocidas y reconocidas del enfoque
Además de todas las preocupaciones y limitaciones anteriores, hay muchas más que los propios autores señalan a lo largo del artículo. Es muy bueno que lo hagan, pero eso no hace que su impacto en la validez del enfoque sea menos significativo. No entraré en muchos detalles ya que puedes leer el documento para eso, pero me gustaría enumerarlos aquí por razones de integridad:
- La estimación no es el efecto de tratamiento promedio que se obtendría de una prueba A / B, sino un efecto de tratamiento promedio local que solo estima el efecto para los usuarios que responden a los choques.
- El análisis se limita a “Los clientes que compraron esto también compraron”
- Las recomendaciones en el análisis no son personalizadas.
- Algunas categorías populares (por ejemplo, libros) estaban sobrerrepresentadas
- Los usuarios con intereses muy específicos están sobrerrepresentados
- Aumentar el valor de Beta restringió la muestra a productos con recomendaciones menos interesantes, reduciendo así el CTR. El hecho de que este parámetro se establezca con el único objetivo de obtener “datos suficientes” para el análisis podría levantar algunas cejas. Puede leer más al respecto en la sección 5.1 del documento.
- Su enfoque se limita a estudiar el efecto de las recomendaciones que provienen de un solo punto focal ( Nota: según los autores, esto significa que su estimación es una sobreestimación. Sin embargo, no reconocen que la mayoría de las otras limitaciones realmente están afectando la estimación en la dirección opuesta o de manera desconocida)
- El precio y los descuentos en los productos pueden afectar la estimación *
- Efectos de vacaciones *
- Distribución de características de usuario y producto *
* Estos últimos 3 se discuten en la sección 5.3 del documento. Los autores explican que no ven un impacto significativo de estos efectos. Realmente no estoy convencido por su análisis de estos tres efectos, ya que hay muy pocos datos para acompañar.
Resultados y comparación
Al final, los autores concluyen:
“Dadas todas estas advertencias, es alentador que si aplicamos nuestra estimación de λˆ = 0.25 a todo el tráfico de recomendación como se describe en la Figura 3, calculamos que la fracción total de tráfico causada por el recomendante es aproximadamente del 8%, una cifra que es sorprendentemente consistente con los resultados de un experimento aleatorio reciente [Belluf et al. 2012] “.
Esta comparación es la guinda del pastel. El documento al que se hace referencia aquí es un póster bastante “exótico” que se publicó en Recsys 2012. Asistí a la conferencia en Dublín y no recuerdo el documento en absoluto, lo cual no es una muy buena señal. Dicho esto, la comparación que hacen es aún más extraña. Creo que se están refiriendo a que sus resultados son consistentes con una de las métricas en el documento, las visitas a la página por usuario. Sin embargo, esa es una métrica muy diferente de lo que estima este artículo. Además, no señalan que las métricas más importantes se estiman en hasta 20% (8-20% para ser claro). Entonces, honestamente, no entiendo cómo esa referencia puede validar ninguno de estos trabajos.
Conclusión
Este es un artículo de investigadores ampliamente conocidos y respetados. El documento presenta un enfoque para estimar el impacto de los sistemas de recomendación que tiene fallas de muchas maneras. Además, los autores utilizan el enfoque para estimar un resultado en un conjunto de datos y afirman que su estimación es más precisa que otras sin una comparación adecuada con otros enfoques o datos experimentales. Espero que algunas de las inquietudes que he planteado se tengan en cuenta al referirme a este documento en trabajos futuros y evitar que los resultados sean aceptados ciegamente como verdaderos.
Como nota final, me gustaría compartir al menos un contrapunto de cuán efectivos son los sistemas de recomendación. Lamentablemente, no puedo compartir los resultados de las pruebas A / B de las empresas para las que he trabajado. Sin embargo, hay algunos datos públicos de Netflix a los que me puedo referir. En el artículo “El sistema de recomendación de Netflix: algoritmos, valor comercial e innovación”, Carlos Gómez y Neil Hunt comparten el siguiente gráfico:
Este gráfico proviene directamente de datos experimentales (pruebas A / B) y se centra en una métrica relacionada con el CTR, pero mucho mejor. Take-Rate es la fracción de impresiones que resultan en una acción positiva. En el caso de Netflix sería una obra de teatro, pero en Amazon sería una compra. El gráfico compara recomendaciones personalizadas con no personalizadas. Esto debe tomarse como un límite inferior en el efecto de una recomendación porque solo compara una estrategia de recomendación con una mucho mejor. El efecto de la personalización depende de la posición en el rango ya que, entre otras cosas, los elementos que se encuentran en el rango inferior no se muestran lo suficiente como para tener una buena estimación de la tasa de toma. En cualquier caso, está claro que la personalización aumenta la tasa de toma de 2X a 4X para el líder de la clasificación.