La respuesta de Sean Owen es excelente, especialmente desde la perspectiva de las pruebas A / B y la capacitación fuera de línea.
Sin embargo, existe un enfoque complementario de evaluación humana que a menudo también es muy útil. Se usa en muchas compañías, pero no parece ser tan conocido, así que lo describiré aquí.
Imagine que está creando un algoritmo de recomendación para su nuevo sitio en línea. ¿Cómo se mide su calidad para asegurarse de que está enviando a los usuarios contenido relevante y personalizado? La tasa de clics o los ingresos pueden ser su esperanza inicial … pero después de un poco de reflexión, no está claro que sean las mejores métricas después de todo.
Tome el motor de búsqueda de Google, por ejemplo. ¡En muchos casos, mejorar la calidad de los resultados de búsqueda en realidad disminuirá el CTR! Por ejemplo, el escenario ideal para consultas como ¿ Cuándo nació Barack Obama? es que los usuarios nunca tienen que hacer clic en ningún lugar en primer lugar, ya que la pregunta debe responderse en la página misma.
O tome Twitter, que algún día podría recomendarle tweets interesantes. Las métricas como CTR, o incluso el número de favoritos y retweets, probablemente se optimizarán para mostrarle frases rápidas e imágenes de gatos divertidos. ¿Pero es un sitio similar a Reddit lo que Twitter realmente quiere ser? Twitter, para muchas personas, comenzó como un sitio de noticias, por lo que los usuarios pueden preferir ver enlaces a contenido más profundo e interesante, incluso si es menos probable que hagan clic en cada sugerencia individual en general.
O tome eBay, que quiere ayudarlo a encontrar los productos que desea comprar. ¿Es el CTR una buena medida? Tal vez no: más clics pueden indicar que está teniendo problemas para encontrar lo que está buscando. ¿Qué pasa con los ingresos? Eso podría no ser ideal tampoco: desde la perspectiva del usuario, desea realizar sus compras al precio más bajo posible, y al optimizar los ingresos, eBay puede estar convirtiéndolo en productos más caros que lo convierten en un cliente menos frecuente a largo plazo .
Y así.
Entonces, para muchos sitios en línea, no está claro cómo medir la calidad de la personalización y las recomendaciones utilizando métricas como CTR, o ingresos, o tiempo de permanencia, o lo que sea. ¿Qué debe hacer un ingeniero?
Bueno, considere el hecho de que muchos de estos son algoritmos de relevancia . Google quiere mostrarte resultados de búsqueda relevantes. Twitter quiere mostrarte tweets y anuncios relevantes. Netflix quiere recomendarte películas relevantes. LinkedIn quiere encontrar personas relevantes para seguir. Entonces, ¿por qué, con tanta frecuencia, nunca intentamos medir la relevancia de nuestros modelos?
Soy un gran admirador de las técnicas de hombre en la máquina (por ejemplo, este proyecto sobre Mejora de la búsqueda de Twitter con computación humana en tiempo real), así que para solucionar este problema, voy a hablar sobre un enfoque de evaluación humana para probar el rendimiento de productos de personalización y descubrimiento. En particular, usaré el ejemplo de recomendaciones de libros relacionados en Amazon mientras paso por el resto de esta publicación.
Sigamos motivando un poco por qué las métricas basadas en registros suelen ser medidas imperfectas de relevancia y calidad, ya que este es un punto importante pero difícil de entender.
Por lo tanto, tome la característica Clientes de Amazon que compraron este artículo También compró , que trata de mostrarle libros relacionados.
Para medir su efectividad, el enfoque estándar es ejecutar un experimento en vivo y medir el cambio en métricas como ingresos o CTR.
Pero imagine que de repente reemplazamos todas las sugerencias de libros de Amazon con pornografía. ¿Qué va a pasar? ¡CTR es probable que se dispare por las nubes! (ver Una historia de anuncios Evony – La locura continúa para un ejemplo hilarante)
O supongamos que reemplazamos todos los libros relacionados de Amazon con artículos más brillantes y caros. Nuevamente, es probable que el CTR y los ingresos aumenten, ya que el contenido más llamativo llama la atención. Pero, ¿es esto algo más que un impulso a corto plazo? Tal vez el cambio disminuya las ventas totales a largo plazo, ya que los clientes comienzan a encontrar a Amazon demasiado caro para sus gustos y se mudan a otros mercados.
Escenarios como estos son el análogo de aprendizaje automático de convertir anuncios en carpas parpadeantes. Si bien pueden aumentar los clics y las vistas inicialmente, probablemente no estén optimizando la felicidad del usuario o la calidad del sitio para el futuro. Entonces, ¿cómo podemos evitarlos y asegurarnos de que la calidad de nuestras sugerencias permanezca constantemente alta? Este es un algoritmo de libros relacionados , después de todo, entonces, ¿por qué, al apegarnos a un experimento en vivo y métricas como CTR, no estamos inspeccionando en ninguna parte la relación de nuestras recomendaciones?
Solución: inyectemos humanos en el proceso. Las computadoras no pueden medir la relevancia (si pudieran, estaríamos listos), pero la gente, por supuesto, sí.
Por ejemplo, en la captura de pantalla a continuación, le pedí a un trabajador de Mechanical Turk que calificara a los primeros tres clientes que compraron esto. También compraron recomendaciones para un libro en barnesandnoble.com.
(Copiando el texto de la captura de pantalla:
- Asesino del tonto , por Robin Hobb. (libro original) “Acabo de leer esto recientemente, pero es uno de mis favoritos de los lanzamientos de este año. Este libro fue muy bien escrito. Siempre he sido un fanático del género Fantasy, pero a menudo todo es estilísticamente similar. Hobb tiene una forma maravillosa con los personajes y la narración. La historia fue absolutamente desgarradora y me llevó a querer otro libro “.
- The Broken Eye (Lightbringer Series # 3) , de Brent Weeks. (primer libro relacionado) “Es una buena, pero no excelente, recomendación. Este libro suena bastante interesante. Sin embargo, es el tercero de una serie, así que primero tendría que ver cómo me gustan los primeros libros”.
- Dust and Light: A Sanctuary Novel , de Carol Berg. (segundo libro relacionado) “Es una buena recomendación. No estoy tan familiarizado con este autor, pero me gusta algo de la premisa del libro. Conozco el dicho ‘No juzgues un libro por su portada …’ pero la portada realmente no me atrae y me apaga del libro “.
- Tower Lord , de Anthony Ryan. (tercer libro relacionado) “Es una buena, pero no excelente, recomendación. Otro autor completamente desconocido para mí (¡algo así como esto, me muestra nuevos lugares para buscar libros!) Sin embargo, esta es también una secuela, así que tendría que ver cómo me gustó el primer libro antes de comprar este “)
Las recomendaciones son decentes, pero ya vemos un par de formas de mejorarlas:
- Primero, dos de las recomendaciones ( The Broken Eye y Tower Lord ) son parte de una serie, pero no el Libro # 1. Entonces, una mejora sería asegurarse de que solo se muestren las presentaciones de la serie a menos que sean seguimientos del libro principal.
- ¡Las portadas de libros importan! De hecho, la segunda sugerencia se parece más a una novela romántica de fantasía que al tipo de fantasía que Robin Hobb tiende a escribir. (Entonces, quizás B&N debería invertir en algo de aprendizaje profundo …)
El CTR y los ingresos ciertamente no nos darían este nivel de información, y no está claro que incluso puedan decirnos que nuestros algoritmos están produciendo sugerencias irrelevantes en primer lugar. En ninguna parte el panel de recomendaciones de desplazamiento deja en claro que dos de los libros son parte de una serie, por lo que el CTR en esos dos libros sería tan alto como si realmente fueran las introducciones de la serie. Y si los ingresos son bajos, no está claro si es porque las sugerencias son malas o porque, por separado, nuestros algoritmos de fijación de precios necesitan mejoras.
Entonces, en general, aquí hay una forma de entender la calidad de un algoritmo de recomendación o Do Do Next :
- Tome un montón de artículos (por ejemplo, libros si somos Amazon o Barnes & Noble) y genere sus hermanos relacionados.
- Envíe estos pares a un grupo de jueces (por ejemplo, utilizando una plataforma de crowdsourcing como Mechanical Turk) y pídales que califiquen su relevancia.
- Analiza los datos que vuelven.
Hagamos esto concreto. Supongamos que soy un vicepresidente de lo que los clientes también compran en Amazon y que quiero comprender los defectos y las estrellas del producto.
Comencé yendo a Mechanical Turk y pidiéndole a un par de cientos de trabajadores que tomaran un libro que disfrutaron el año pasado y que lo encontraran en Amazon. Luego tomarían las tres primeras sugerencias de libros relacionadas de un autor diferente, las calificarían en la siguiente escala y explicarían sus calificaciones.
- Gran sugerencia Definitivamente lo compraría. (Muy positivo)
- Sugerencia decente. Podría comprarlo. (Levemente positivo)
- No es una gran sugerencia. Probablemente no lo compraría. (Levemente negativo)
- Terrible sugerencia. Definitivamente no lo compraría. (Muy negativo)
(Nota: generalmente prefiero una escala Likert de tres o cinco puntos con una opción “neutral”, pero esta vez me sentía un poco salvaje).
Por ejemplo, así es como un evaluador revisó las recomendaciones relacionadas para The Wolves of Midwinter de Anne Rice.
Entonces, ¿qué tan buenas son las recomendaciones de Amazon? Bastante bueno, de hecho: el 47% de los evaluadores dijeron que definitivamente comprarían el primer libro relacionado, otro 29% dijo que era lo suficientemente bueno como para que pudieran comprarlo, y solo al 24% de los evaluadores no les gustó la sugerencia.
Las sugerencias del segundo y tercer libro, aunque un poco peor, también parecen funcionar bastante bien: alrededor del 65% de los evaluadores las calificaron como positivas.
¿Qué podemos aprender de las malas calificaciones? Ejecuté una tarea de seguimiento que pedía a los trabajadores que clasificaran los libros relacionados malos, y aquí está el desglose.
- Relacionado pero diferente-subtema. Estas fueron sugerencias de libros que generalmente estaban relacionadas con el libro original, pero que estaban en un subtema diferente en el que el evaluador no estaba interesado. Por ejemplo, el primer libro relacionado para El arte de la guerra de Sun Tzu (un libro nominalmente sobre guerra, pero que hoy en día se ha convertido en un libro de trucos para la vida) fue On War (un tratado de guerra), pero el evaluador en realidad no estaba interesado en los aspectos militares: “No compraría este libro, porque solo se enfoca en lo militar guerra. No estoy interesado en eso. Estoy interesado en tácticas mentales que me ayudarán a prosperar en la vida “.
- Completamente no relacionado. Estas fueron sugerencias de libros que no tenían relación alguna con el libro original. Por ejemplo, un diccionario de Scrabble que aparece en la página de The Art of War .
- Poco interesante. Estas fueron sugerencias relacionadas, pero cuyas historias no atrajeron al evaluador. “La historia no parece tan emocionante. No soy un fanático de los perros y se trata de un perro”.
- Público equivocado Estas fueron sugerencias de libros cuyo público objetivo era bastante diferente del público del libro original. En muchos casos, por ejemplo, una sugerencia de libro relacionada sería un libro para niños, pero el libro original estaría dirigido a adultos. “Este parece ser un libro para niños. Si tuviera un hijo, definitivamente compraría esto; por desgracia no lo hago, así que no lo necesito”.
- Tipo de libro incorrecto. Las sugerencias en esta categoría fueron elementos como libros de texto o que aparecen junto a novelas.
- Autor disgustado Estas recomendaciones fueron de autores similares, pero no le gustó al evaluador. “No me gusta Amber Portwood. Definitivamente no me gustaría leer un libro sobre ella”.
- No es el primero en la serie. Algunas recomendaciones de libros serían para una serie interesante con la que el evaluador no estaba familiarizado, pero no serían el primer libro de la serie.
- Mala calificación Estas fueron sugerencias de libros que tuvieron una calificación de Amazon particularmente baja.
Entonces, para mejorar sus recomendaciones, Amazon podría intentar mejorar sus modelos de temas, agregar características basadas en la edad a sus libros, distinguir entre libros de texto y novelas e invertir en detectores de series. (Por supuesto, por lo que sé, ya hacen todo esto).
Ahora tenemos una mejor comprensión de las sugerencias de libros relacionados de Amazon y cómo podrían mejorarse, y al igual que podríamos citar una métrica como un CTR de 6.2% o no, también podemos citar una
puntuación de
relevancia de 0.62 (o lo que sea). Ahora pasemos a la pregunta de cómo Amazon se compara con otros libreros en línea como Barnes & Noble y Google Play.
Tomé la misma tarea de evaluación de recomendaciones que utilicé anteriormente, pero esta vez le pedí a los evaluadores que revisen las sugerencias relacionadas en Barnes & Noble y Play Bookstore también.
En breve,
- El algoritmo de Barnes & Nobles es casi tan bueno como el de Amazon : las primeras tres sugerencias fueron calificadas como positivas el 58% del tiempo, en comparación con el 68% en Amazon.
- Pero las recomendaciones de Play Store son atroces : un enorme 51% de las recomendaciones de libros relacionados de Google fueron marcadas como terribles.
¿Por qué son tan malas las sugerencias de Play Store? Veamos un par de ejemplos.
Aquí está la página de Play Store para The Fault in Our Stars , de John Green, un libro que les encantó a los críticos sobre el cáncer y el romance (y ahora también una película).
Dos de las sugerencias son completamente aleatorias: un manual de Excel mal calificado y un libro de texto sobre salud sexual mal revisado. Los otros son libros de vaqueros completamente ajenos, de otro John Green.
Aquí está la página de The Strain . ¡En este caso, todas las sugerencias están en un idioma diferente! Y solo hay cuatro de ellos.
Una vez más, pidiéndole a los evaluadores que clasifiquen todas las malas recomendaciones de Play Store …
- El 45% del tiempo, las sugerencias de libros relacionados no tenían relación alguna con el libro original en cuestión. Por ejemplo: mostrar un libro de texto de física en la página de una novela romántica.
- El 32% del tiempo, simplemente no había una sugerencia de libro en absoluto. (Supongo que el catálogo de Play Bookstore es bastante limitado).
- El 14% del tiempo, los libros relacionados estaban en un idioma diferente.
Entonces, a pesar del avanzado aprendizaje automático de Google en otros lugares, sus sugerencias de Play Store realmente no podrían empeorar mucho.
Retrocedamos un poco. Hasta ahora me he centrado en un paradigma de juicios absolutos, en el que los jueces califican en una escala absoluta la relevancia de un libro para el original. Este modelo es excelente para comprender la calidad general del algoritmo de libro relacionado de Amazon.
Sin embargo, en muchos casos, queremos usar la evaluación humana para comparar experimentos. Por ejemplo, es común en muchas compañías:
- Inicie una “prueba A / B de evaluación humana” antes de un experimento en vivo, tanto para evitar enviar accidentalmente experimentos increíblemente defectuosos a los usuarios, como para evitar la larga espera requerida en las pruebas en vivo.
- Utilice una puntuación de relevancia generada por el ser humano como complemento de las métricas de experimentos en vivo al tomar decisiones de lanzamiento.
Para este tipo de tareas, lo preferible es a menudo un modelo en paralelo , en el que los jueces reciben dos elementos y se les pregunta cuál es mejor. Después de todo, los juicios comparativos son a menudo mucho más fáciles de hacer que los absolutos, y podríamos querer detectar diferencias a un nivel más fino que el que está disponible en una escala absoluta.
La idea es que podemos asignar una puntuación a cada calificación (negativa, por ejemplo, si el evaluador prefiere el elemento de control; positiva si el evaluador prefiere el experimento), y los agregamos para formar una puntuación general para el lado a lado . Entonces, de la misma manera que las caídas en el CTR pueden bloquear el lanzamiento de un experimento, una puntuación de evaluación humana negativa también debería ser motivo de preocupación.
Desafortunadamente, no tengo una manera fácil de generar datos para una en paralelo (aunque podría realizar una en paralelo en Amazon vs.Barnes & Noble), así que omitiré un ejemplo, pero el La idea debería ser bastante clara.
Aquí hay otra sutileza. En mis ejemplos anteriores, les pedí a los evaluadores que eligieran un libro inicial (uno que leyeran y amaran en el último año), y luego calificaran si personalmente querrían leer las sugerencias relacionadas.
Otro enfoque es elegir los libros iniciales para los evaluadores y luego calificar las sugerencias relacionadas de manera más objetiva, tratando de ponerse en el lugar de alguien que esté interesado en el artículo inicial.
¿Qué enfoque es mejor? Como probablemente pueda adivinar, no hay una respuesta clara: depende de la tarea y los objetivos en cuestión.
Pros del primer acercamiento
- Es mucho más matizado. A menudo puede ser difícil ponerse en el lugar de otra persona: ¿alguien interesado en Harry Potter estaría interesado en Twilight? Por un lado, ambos son libros de fantasía; Por otro lado, Twilight parece un poco más orientada al público femenino.
Pros del segundo enfoque
- A veces, la objetividad es algo bueno. (¿Debería importarte si a alguien no le gusta Twilight simplemente porque Edward le recuerda a su novio?)
- Permitir que las personas elijan sus elementos iniciales puede sesgar ciertas métricas. Por ejemplo, es mucho más probable que las personas elijan libros populares para calificar, mientras que es posible que queramos medir la calidad de las sugerencias de Amazon en una porción más amplia y representativa de su catálogo.
Repasemos lo que he discutido hasta ahora.
- Las métricas en línea basadas en registros como CTR e ingresos no son necesariamente las mejores medidas de la calidad de un algoritmo de descubrimiento. Los elementos con un CTR alto, por ejemplo, pueden ser simplemente llamativos y llamativos, no los más relevantes.
- Entonces, en lugar de confiar en estos poderes, midamos directamente la relevancia de nuestras recomendaciones preguntando a un grupo de evaluadores humanos.
- Hay un par de enfoques diferentes para enviar los elementos a juzgar. Podemos dejar que los evaluadores elijan los ítems (un enfoque que a menudo es necesario para algoritmos personalizados), o podemos generar los ítems nosotros mismos (a menudo útiles para tareas más objetivas como la búsqueda; esto también tiene la ventaja de facilitar la obtención de popularidad) métricas de relevancia ponderadas o uniformemente ponderadas). También podemos adoptar un enfoque de juicio absoluto, o usar lado a lado.
- Al analizar los datos de nuestras evaluaciones, podemos tomar mejores decisiones de lanzamiento, descubrir ejemplos en los que nuestros algoritmos funcionan muy bien o muy mal, y encontrar patrones para mejorar.
¿Cuáles son algunos de los beneficios y aplicaciones?
- Como se mencionó, las métricas basadas en registros como CTR e ingresos no siempre capturan las señales que queremos, por lo que los puntajes generados por el hombre de relevancia (u otras dimensiones) son complementos útiles.
- Las evaluaciones humanas pueden hacer que la iteración sea más rápida y fácil. Un cambio de algoritmo normalmente puede requerir semanas de pruebas en vivo antes de recopilar suficientes datos para saber cómo afecta a los usuarios, pero podemos hacer que una tarea sea juzgada fácilmente por los humanos en un par de horas.
- Imagine que somos una empresa de publicidad y elegimos qué anuncios mostrar en función de una combinación de CTR e ingresos. Una vez que reunimos cientos de miles de juicios de relevancia de nuestras evaluaciones, podemos construir un modelo de aprendizaje automático basado en la relevancia para agregar a la mezcla, inyectando así una medida más directa de calidad en el sistema.
- ¿Cómo podemos decidir qué mejoras deben realizarse en nuestros modelos? Las evaluaciones nos brindan comentarios muy concretos y ejemplos específicos sobre lo que funciona y lo que está mal.
De acuerdo, originalmente estaba planeando agregar un ejemplo detallado de Quora, pero esta respuesta es un poco larga, por lo que solo daré un breve avance por ahora.
Le pedí a los evaluadores que juzgaran las preguntas relacionadas sobre Quora en una escala de tres puntos: relevante, irrelevante o potencialmente relevante / irrelevante.
¿Qué tan bien hizo Quora? El 33% de las tres preguntas relacionadas principales se marcaron como irrelevantes, el 50% se consideraron relevantes y el resto estaba en el medio.
¿Cuáles son ejemplos de las malas recomendaciones? Puse 5 evaluadores en cada pregunta para obtener una calificación más precisa, y aquí están algunos de los peores ejemplos. La mayoría de los problemas parecían provenir de una entusiasta coincidencia de títulos y temas.
- ¿Debo mantener una hermosa guitarra vintage con un crack superior? en la página de ¿Cómo instalo la versión crackeada de Guitar Pro 6? (el original es sobre un programa de computadora, el otro es sobre una guitarra real)
- ¿No se arrepienten los padres de tener hijos porque fueron programados por la evolución para no arrepentirse? en la página de ¿Cómo puedo convencer a mis padres para que inviertan en mi carrera de programación? (el original trata sobre programación informática, el otro trata sobre evolución)
Por supuesto, la relevancia depende de si está intentando leer más preguntas o si desea encontrar más para responder , así que aquí hay un ejemplo en el que las dos perspectivas difieren:
Alguien contestando ¿Vale la pena comprar un Apple Watch? probablemente sepa mucho sobre los productos de Apple y pueda responder ¿AppleCare para MacBook Pros vale los $ 350? también. Pero a alguien que quiera leer más sobre el Apple Watch probablemente no le importe.
Y tal vez guardaré el resto, así como una discusión sobre las recomendaciones de la página de inicio, para otra publicación.