¿Por qué los diseñadores o los PM deben aprender sobre el aprendizaje automático? La tecnología cambia la vida futura

El aprendizaje automático es extremadamente importante en Quora. Alimenta nuestros correos electrónicos de resumen personalizados, el feed de inicio, la aplicación de temas a las preguntas, la moderación, el enrutamiento de preguntas a las personas para responder, la detección de spam y más.

En nuestro caso, la respuesta a la pregunta es que casi todos los diseñadores tienen una comprensión básica del aprendizaje automático, y también hemos desarrollado un marco para saber quién necesita saber cuánto.

Tenga en cuenta que voy a usar Designer y PM de manera intercambiable porque los dos roles funcionales tienen mucha superposición en Quora y esto debería ser igualmente útil para ambos. Imagina que eres alguien trabajando en …

Patrones de diseño

Su día a día está trabajando con el tipo, la cuadrícula, el diseño, el color y el establecimiento de patrones de diseño para ser reutilizados en todo el sitio. Esto es lo más lejos que puede llegar de ML

Sin embargo, es extremadamente útil darse cuenta de que el contenido de un producto altamente personalizado puede variar mucho de un usuario a otro y es un riesgo el diseño para personas solo como usted. Por ejemplo, cuando trabajé en Facebook, mi fuente de noticias estaría llena de fotos DSLR de alta calidad de otros empleados, a diferencia de esta foto de lanzamiento del rediseño de Newsfeed 2013.

Pero resultó que la mayoría de los usuarios reales no tenían amigos con excelentes cámaras en ese momento, por lo que en realidad la mayoría de las pantallas eran más pequeñas y el énfasis que el diseño pone en presentar imágenes de alta calidad simplemente no era tan importante como se percibía internamente.

Spam / Sistemas de control de calidad

Los filtros de spam se basan en la clasificación [1]. Clasificadores use datos del pasado para etiquetar si algo pertenece a una clase (en esta clase spam) u otra (no spam). Cualquiera de estos sistemas comete errores, ya sea marcando mensajes bien intencionados como spam ( falsos positivos ) o aún dejando pasar el spam ( falsos negativos ). Esto también se generaliza a la clasificación de clases múltiples.

El manejo de falsos positivos y negativos se convierte en la principal preocupación de la experiencia del usuario de dichos sistemas, primero en el cliente:

La interfaz de solicitudes de mensajes de Messenger es un flujo para manejar mensajes de personas que aún no conoce. Tiene que resolver el spam, el acoso y la sobrecarga de la bandeja de entrada de celebridades.

Pero si su sistema de clasificación no es a prueba de balas, por ejemplo, si los correos electrónicos legítimos a veces se marcan como spam, entonces los remitentes de mensajes deben asumir una responsabilidad parcial y pedirle que “se asegure de revisar su carpeta de spam”.

Su trabajo se convierte en cómo manejar cuando los falsos positivos y negativos cuando suceden. Cuando las cosas se marcan inadvertidamente como spam, estás diseñando por miedo a perderte y cuando algo pasa los filtros, estás tratando de explicar la falla potencial y dándole al usuario los bucles de retroalimentación para luego lidiar con ella.

Notificaciones

Las notificaciones son una gran palanca para aumentar el compromiso y dar retroalimentación a las personas sobre sus acciones, pero estos sistemas son complejos de diseñar.

A medida que las empresas crecen, a menudo desarrollan un sistema donde diferentes equipos pueden crear diferentes correos electrónicos o notificaciones para enviar a los usuarios y en función de su compromiso anterior y el ancho de banda actual, un clasificador determina si se debe enviar un correo electrónico, por ejemplo, el marco de optimización de correo electrónico de LinkedIn .

Pero estos sistemas a menudo son ciegos a casos especiales donde los falsos positivos o negativos son particularmente caros:

Si alguien a quien sigo comenta una respuesta mía, es una señal muy alta y quiero saber que sucedió, incluso si no tengo tiempo para responder a muchos otros comentarios.
Es posible que me interesen mucho más las respuestas de retroalimentación que escribí recientemente que las que escribí hace mucho tiempo.

Saber cuándo un usuario espera una relación determinista y el sistema no puede permitirse un falso negativo es extremadamente importante para evitar el miedo a perderse y mantener la confianza.

A menudo, los sistemas ML se aumentan con un conjunto de reglas para preservar el comportamiento deseado. De hecho, hay muchas formas de codificar “reglas” en sistemas prácticos de LD, de los que hablo en esta respuesta. Además, algunos productos van tan lejos como para evitar el Machine Learning por completo para estos problemas y tienen conjuntos de reglas increíblemente complejos para que puedan preservar el nivel deseado de confianza. Por ejemplo, Slack usa este diagrama de flujo para determinar si le enviará una notificación push:

Las reglas de Slack para determinar si se debe enviar una notificación

Feeds clasificados

A diferencia de Twitter, los feeds de inicio para Facebook, Quora y Netflix no están ordenados por tiempo, sino que se clasifican por relevancia. Esto nos lleva a nuestro primer problema de regresión [2], en el que el algoritmo ML está tratando de predecir una probabilidad de que te guste una historia. Este es un número entre 0 y 1, basado en muchas instancias anteriores observadas de 0 y 1.

Tener que ordenar una lista de posibles resultados (tenga en cuenta el parecido con los motores de búsqueda, de los que hablaremos pronto) le ahorra parte del dolor que conlleva los falsos positivos y negativos en la clasificación, pero hay varias otras preocupaciones que intervienen en la elaboración de un buena experiencia de alimentación en el hogar, que incluye frescura, diversidad y expectativas de los usuarios de ver las cosas que más importan primero.

Por lo tanto, las personas que impulsan la experiencia del usuario a menudo tienen un papel importante que desempeñar en la definición de la función objetivo [3], que puede considerarse como lo que el sistema está tratando de maximizar. Por ejemplo, si Facebook intenta maximizar las posibilidades de que le guste una historia, le mostrará contenido muy interesante pero posiblemente desactualizado, o muchas historias de la misma persona, y estas son consideraciones de la experiencia del usuario que deben tenerse en cuenta.

Ya he escrito un poco sobre el diseño de feeds domésticos en el blog, pero estén atentos, hay mucho más en camino.

Además, es realmente importante que recopiles la señal correcta de los usuarios sobre si realmente les gustó el contenido o no, lo que me lleva a …

Acciones de contenido

La retroalimentación es muy importante para estos sistemas de clasificación. Cualquier modelo de regresión solo puede optimizar algo que puede medir, lo que significa que necesita señales claras del producto de que un usuario quiere más de algo o menos de algo.

Estas señales pueden ser implícitas, como la cantidad de tiempo que pasaste viendo un video en YouTube o explícita, como rechazar una pregunta o respuesta en Quora. Hablo de ellos con bastante detalle en otra publicación, pero las principales conclusiones son que estas señales deben ser:

Predictivo: realmente indicativo de una buena experiencia de usuario
Sin ambigüedades: no confunde las intenciones, por ejemplo, la acción de contenido “estrella” original de Twitter fue diseñadora para marcadores pero utilizada en la práctica por gusto
Denso: Usado con la frecuencia suficiente por los usuarios para que pueda aprender de manera sólida de los datos. Esta es la razón por la cual las señales implícitas como el tiempo de visualización tienden a funcionar extremadamente bien.

Explicando los números mágicos

A menudo, se usa un modelo de regresión para fijar el precio de algo, pero los usuarios más exigentes quieren entender por qué tiene el precio de la manera en que está. Por ejemplo, Airbnb se topó con el problema de tratar de explicar los precios predichos a los anfitriones. Afortunadamente, su modelo era (o lo suficientemente cercano a) un modelo de regresión lineal en el que se podía expresar el precio previsto como una suma ponderada de singularidad, demanda y ubicación, que podrían traducirse en visualizaciones fáciles de entender.

El modelo de regresión de precios inteligentes junto a una visualización que explica el modelo está compuesto por tres partes que varían según el host, desde el diseño invisible de Amber Cartwright.

La interpretabilidad del modelo es una gran área de trabajo continuo en Machine Learning, y una compensación que estamos viendo es que cuanto más complejo y preciso es el modelo, menos interpretable suele ser.

Buscar

Lo que me lleva ahora a Google, que probablemente fue el primer producto de clasificación convencional con consideraciones complejas de IU. Tenga en cuenta que todavía no digo Machine Learning porque no siempre funcionaba con ML, pero ahora sí.

Al producir una página de resultados de búsqueda, un motor de búsqueda tiene que pasar por varias de las consideraciones que hemos esbozado anteriormente: filtrar contenido para adultos / ofensivo, clasificar una lista bajo una función objetivo compleja, explicar los números en los metadatos y recopilar comentarios sobre si un resultado de búsqueda satisfizo la consulta (te dejaré pensar cómo lo hacen).

Pero la búsqueda tiene una consideración única de interfaz de usuario propia, que es discernir la intención del usuario . Como puede ver, cuando busco la película, podría estar buscando una descripción general (columna de la derecha), horarios, noticias, avances, reseñas o tal vez algo completamente diferente.

Es importante que un diseñador entienda qué diferentes combinaciones de intenciones puede tener una consulta y diseñe un sistema de interfaz de usuario que pueda adaptarse de manera flexible a las muchas posibilidades diferentes.

Posicionar contenido relacionado

ML también se utiliza en la superficie de contenido relacionado. Por lo general, se formula como un problema de regresión que maximiza la probabilidad de hacer clic en un enlace relacionado.

Pero en el ejemplo de YouTube anterior, “Todo está mal con Underworld: Rise of the Lycans” no tiene nada en común con la historia de Japón. Simplemente es algo que YouTube sabe que es probable que haga clic porque vi otro video del mismo canal. YouTube juega un complicado acto de equilibrio aquí para asegurarse de que parte del contenido relacionado esté realmente relacionado, así como para posicionar la función de forma más defensiva como “Up Next” en lugar de su nombre original “Videos relacionados”.

Voz y conversación

Los chatbots están de moda (¿o ya lo son en 2016?), Pero tanto la comprensión del lenguaje natural como la síntesis del habla están en su infancia. Por lo tanto, es importante que un diseñador trabaje bien con el equipo y comprenda las limitaciones del sistema.

Por ejemplo, hacer que los chatbots recuerden el contexto es muy difícil y la síntesis de voz finalmente está llegando a niveles humanos de calidad con mejoras innovadoras todos los días.

El lenguaje natural está tan en la frontera en este momento que las oportunidades de productos que no estaban disponibles la semana pasada podrían abrirse hoy.

Redaccion

Por último, pero no menos importante, innumerables estudios de usuarios sobre productos personalizados en toda la industria revelan que muchas personas ni siquiera se dan cuenta de que lo que están viendo es personalizado para ellos, por lo que incluso los pequeños detalles son importantes, por ejemplo, titular feed como “Historias principales para usted “en lugar de” Historias principales “o mediante el uso del nombre de la persona en los lugares apropiados en la interfaz de usuario.

Entonces, esa es una lista no exhaustiva pero bastante completa de razones por las que tiene sentido que la gente del producto se familiarice con ML. A continuación, escribiré un poco sobre dónde adquirir un conocimiento funcional de Machine Learning y seguiré con algunos estudios de casos y experiencias interesantes que hemos tenido a lo largo de los años.

Glosario

Esperemos que sean suficientes para tener un sentido intuitivo. Los rellenaré más rigurosamente en otra publicación.

La clasificación es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación, sobre la base de un conjunto de entrenamiento de datos que contienen observaciones (o instancias) cuya categoría de pertenencia es conocida.
La regresión en este contexto es predecir un resultado de valor real basado en observaciones previas, por ejemplo, predecir el precio de una nueva casa en el mercado en función de otras casas similares que han sido tasadas en función de sus características (pies cuadrados, número de habitaciones, etc. .)
Función objetivo: cuando se entrena un modelo de aprendizaje automático basado en observaciones previas (esto se llama datos de entrenamiento), lo hacemos dándole “errores” para minimizar o algo para maximizar. Por ejemplo, si estamos prediciendo qué tan probable es que a un usuario le guste una historia en las noticias de Facebook, entonces la probabilidad de que le guste esa historia P (me gusta) es la función objetivo que queremos maximizar sobre los datos de entrenamiento.
Características: Estos son atributos de los datos que son útiles para predecir la función objetivo y se pueden observar en entradas nuevas para las que necesitamos clasificar o predecir una salida real. Por ejemplo, la cantidad de veces que el “príncipe nigeriano” aparece en un correo electrónico es una función utilizada para predecir si un correo electrónico es spam. Del mismo modo, los pies cuadrados de una casa en la predicción de su precio.

Aprendizaje automáticoinformática