¿Cómo funciona el algoritmo de recomendación de YouTube?

El objetivo del sistema de recomendación de video de YouTube es simple: proporcionar recomendaciones de video personalizadas de alta calidad a sus usuarios. La forma en que YouTube puede lograr este objetivo es todo lo contrario. Como era de esperar, la gente de Google ha desarrollado soluciones elegantes para este problema como se explica en el documento ‘El sistema de recomendación de videos de YouTube’. Lo que sigue aquí es una cuenta abreviada y simplificada de este documento para los no técnicos.

Desafíos

Hay una serie de desafíos que se interponen en el camino de proporcionar recomendaciones de video personalizadas. Primero, la cantidad de videos cargados en YouTube es asombrosa. En segundo lugar, gran parte de este video tiene metadatos deficientes, como títulos y descripciones incompletos o irrelevantes. En tercer lugar, las métricas que están disponibles para el recomendación de YouTube para medir el interés del usuario son mucho más vagas que las disponibles para otros sistemas de recomendación como Amazon. Por ejemplo, comprar un producto es un indicador más claro del interés del usuario que mirar un video. Además, las recomendaciones de videos de YouTube deben ser nuevas ya que muchos videos de YouTube tienen una vida útil corta, y los videos más antiguos a menudo serán de poco interés para los usuarios.

Fuentes de datos

El sistema de recomendaciones de YouTube extrae sus datos de dos fuentes principales. El primero es el contenido de datos, como metadatos como títulos y descripciones. El segundo son los datos de actividad del usuario, que se clasifican como atributos explícitos, como calificaciones y favoritos, y atributos implícitos, como el tiempo de visualización.

Determinar videos relacionados y candidatos recomendados

Antes de generar candidatos de recomendación, el sistema determina un conjunto de videos relacionados que es probable que un usuario vea después de ver un video semilla dado. Para hacerlo, utiliza un método llamado minería de reglas de asociación o visita conjunta para identificar pares de videos vistos en una sesión determinada y calcular una puntuación de relación para estos videos. Luego, el sistema combina las reglas de asociación de los videos relacionados con la actividad de un usuario en el sitio, como los videos vistos y favorecidos por el usuario, para crear lo que llama un conjunto de semillas. Una vez hecho esto, rastrea rutas de videos relacionados de este conjunto de semillas para generar recomendaciones de candidatos. Piense en el conjunto de semillas como el centro de una red y los posibles candidatos de recomendación como puntos en esa red que se extienden hacia afuera desde el centro. Cuanto más cerca del centro de la red esté un punto, más relacionado estará con el conjunto de semillas; cuanto más lejos, menos relacionado.

Clasificación de candidatos a recomendación

Una vez que se ha generado un conjunto de recomendaciones de candidatos, se clasifican según diversas señales, que se pueden organizar en tres grupos: 1) calidad de video, 2) especificidad del usuario y 3) diversificación. Las señales de calidad de video incluyen métricas como conteo de vistas, clasificaciones de video, comentarios, favoritos y actividades para compartir. Las señales de especificidad del usuario se utilizan para impulsar videos que son similares a las preferencias únicas de un usuario. Las propiedades del video semilla, como el conteo de vistas y el tiempo de visualización, se utilizan para generar estas señales de especificidad del usuario. Para aumentar la diversidad, se eliminan los videos candidatos de recomendación que son demasiado similares entre sí y se reemplazan con contenido más variado. La lógica de tal diversidad es que un usuario tiene múltiples intereses y preferencias de visualización correspondientes; por lo tanto, un conjunto de recomendaciones demasiado similares solo al video semilla no reflejará con precisión los gustos generales del usuario.

Resultados

El sistema de recomendaciones de YouTube ha funcionado bien para mejorar la participación del usuario. En el momento de la publicación del artículo, los videos recomendados representaban aproximadamente el 60% de los clics en la página de inicio. Además, se encontró que durante un período de 21 días, el porcentaje de clics (CTR) para los videos recomendados se realizó al 207% del CTR promedio para los videos más vistos.

Espacio para el crecimiento

Si bien el sistema de recomendación de YouTube ha funcionado bien, parece que hay margen de mejora. De hecho, otros sistemas de recomendación, como el motor Trouvus, han logrado mejores resultados que los documentados en el documento de YouTube. Además, debe tenerse en cuenta que los proveedores de contenido que usan YouTube para alojar contenido no necesariamente tendrán su propio contenido recomendado a los usuarios por el sistema de YouTube. Por lo tanto, tiene sentido que dichos proveedores de contenido, suponiendo que tengan sus propias propiedades digitales (en las que pueden colocar sus videos), busquen adquirir su propio sistema de recomendación.

FUENTE: – ¿Cómo funciona el sistema de recomendaciones de YouTube?

Siempre está cambiando, pero después de casi 100k suscriptores en YouTube, me estoy volviendo decente para mantener el ritmo.

Ver el tiempo lo es todo.

¿Cuántas horas TOTALES de videos de creadores de contenido viste?

Por ejemplo, si viste 100 horas de videos de PewDiePies, entonces él será tu YouTuber recomendado.

Luego, ¿cuántas horas de un tema de nicho en particular viste?

Si viste más de 1000 horas de videos de autos, el bingo. ¡Eso es lo que YouTube recomendará!

Finalmente, completó el video. Si ves un video completo por completo, YouTube no solo recomendará a ese creador, sino que tendrá en cuenta algo interesante. Agrupará los datos de otras personas que hayan visto ese video en particular hasta el final y recomendarán en qué hicieron clic esas personas a continuación.

Solía ​​ser un juego de clics, etiquetas y descripciones. Ahora, se trata de contenido.

Contenido, contenido, contenido.

¡Aclamaciones!

Los algoritmos de recomendación de Youtube funcionan en función de las señales de la intención del usuario en el sitio / aplicación, a saber:

  • Tiempo de visualización de video / tiempo de permanencia
  • Porcentaje de la duración total del video visto (se le otorga el puntaje de relevancia más alto)
  • Le gusta disgustos
  • Frescura del video

Estos puntos de datos se utilizan con las redes neuronales, que asignan automáticamente pesos a estos para generar predicciones sobre lo que les gustaría a los usuarios. Las regresiones logísticas también se utilizan en función de los mismos factores en los que la variable de salida es la probabilidad de que se haga clic / se vea el video.

Además de esto, las acciones colectivas de los usuarios se calculan para predecir qué contenido le puede gustar a un usuario en función de la popularidad del contenido, así como para implementar el filtrado colaborativo, que en esencia es “Los usuarios que vieron esto también vieron”.

Una pregunta que personalmente tuve es si Youtube usa los datos que Google recopila sobre los usuarios para personalizar las recomendaciones también. Tiene mucho sentido que hagan esto como lo hace Facebook con Whatsapp (para hacer sugerencias de amigos)

Al ser una empresa que trabaja con grandes plataformas de transmisión de video (Personalización simplificada), sabemos que la mayoría de las plataformas de video AVOD / SVOD utilizan el mismo tipo de algoritmos / enfoques para la recomendación de contenido. Sin embargo, existen enfoques más avanzados, como comprender la semántica del contenido para recomendar contenido a los usuarios en función de sus temas, conceptos, categorías, personas, etc. preferidos. Utilizamos este enfoque:

En un artículo reciente publicado por Google, los ingenieros de YouTube analizaron con mayor detalle el funcionamiento interno del algoritmo de recomendación de YouTube. El documento fue presentado en la Décima Conferencia de ACM sobre Sistemas de Recomendación la semana pasada en Boston.

Las recomendaciones de YouTube son impulsadas por Google Brain, que recientemente se abrió como TensorFlow. Al usar TensorFlow, uno puede experimentar con diferentes arquitecturas de redes neuronales profundas utilizando entrenamiento distribuido. El sistema consta de dos redes neuronales. La primera, la generación de candidatos, toma como entrada el historial de visualización del usuario y, mediante el uso de filtros colaborativos, selecciona videos en el rango de cientos. Una distinción importante entre el desarrollo y la implementación final para la producción es que durante el desarrollo Google usa métricas fuera de línea para el desempeño de algoritmos, pero la decisión final proviene de las pruebas A / B en vivo entre los algoritmos de mejor desempeño.

La generación de candidatos utiliza la retroalimentación implícita de los relojes de video por parte de los usuarios para entrenar el modelo. La retroalimentación explícita, como un pulgar hacia arriba o un pulgar hacia abajo de un video, en general es poco común en comparación con lo implícito, y este es un problema aún mayor con los videos de cola larga que no son populares. Para acelerar el entrenamiento del modelo para videos recién subidos, la edad de cada ejemplo de entrenamiento se incluye como una característica. Otro aspecto clave para descubrir y mostrar contenido nuevo es utilizar todos los videos de YouTube vistos, incluso en sitios asociados, para entrenar el algoritmo. De esta forma, el filtrado colaborativo puede captar videos virales de inmediato. Finalmente, al agregar más funciones y profundidad, como las búsquedas y la antigüedad del video que no sean los relojes reales, YouTube pudo mejorar los resultados de precisión de la retención sin conexión.

La segunda red neuronal se usa para clasificar los pocos cientos de videos en orden. Esto es mucho más simple como un problema para la generación de candidatos, ya que la cantidad de videos es menor y hay más información disponible para cada video y su relación con el usuario. Este sistema usa la regresión logística para calificar cada video y luego las pruebas A / B se usan continuamente para mejorar aún más. La métrica utilizada aquí es el tiempo de visualización esperado, ya que el clic esperado puede promover clickbait. Para entrenarlo en el tiempo de observación en lugar de la tasa de clics, el sistema usa una variación ponderada de regresión logística con el tiempo de observación como el peso para las interacciones positivas y un peso unitario para las negativas. Esto funciona en parte porque la fracción de impresiones positivas es pequeña en comparación con el total.

El sistema de recomendación de YouTube es uno de los sistemas de recomendación más sofisticados y más utilizados en la industria. El documento solo rasca la superficie pero, sin embargo, ofrece varias ideas útiles sobre la ingeniería de sistemas de aprendizaje profundo.

Google cambió el algoritmo de YouTube en 2016 a uno nuevo creado por su empresa de inteligencia artificial Deep Mind. Utiliza redes neuronales de aprendizaje profundo para optimizar el tiempo de visualización esperado del usuario.

El algoritmo tiene dos pasos, los cuales usan redes neuronales de múltiples capas.

1) Generación de candidatos. Esto selecciona unos cientos de posibles videos para el usuario de todo el corpus de videos de YouTube. Utiliza un criterio de personalización bastante crudo basado en videos que también son vistos comúnmente por personas que miran videos similares al usuario, y similitudes demográficas.

2) Clasificación. El subconjunto más pequeño de videos se puntúa según el tiempo de visualización esperado. Utiliza cientos de funciones para intentar predecir el tiempo de visualización. por ejemplo, número de videos que el usuario ha visto en el mismo canal, consulta de búsqueda realizada por el usuario antes de ver el video, cuánto tiempo hace que el usuario vio un video sobre el mismo tema.

Parte de la razón para usar dos etapas se debe a la escala del problema. YouTube tiene una gran cantidad de videos que se actualizan rápidamente. Esto significa, por ejemplo, que hasta ahora no es práctico ejecutar el algoritmo de la segunda etapa en todos los videos.

En mi opinión, este algoritmo de dos etapas con este criterio lleva a YouTube a recomendar videos adictivos a corto plazo, seleccionados de un pequeño conjunto de videos populares.

Si bien utiliza algoritmos sofisticados para la predicción, tiene criterios muy poco sofisticados para los que se optimizan esos algoritmos. Piense en obtener recomendaciones de televisión de un niño inteligente, en lugar de decir un crítico de televisión profesional.

Detalles completos en el documento de Google sobre el algoritmo: Redes neuronales profundas para recomendaciones de YouTube

Extraído de: ¿Cómo funciona el algoritmo de recomendación de YouTube?

En un artículo reciente publicado por Google, los ingenieros de YouTube analizaron con mayor detalle el funcionamiento interno del algoritmo de recomendación de YouTube. El documento fue presentado en la Décima Conferencia de ACM sobre Sistemas de Recomendación la semana pasada en Boston.

Las recomendaciones de YouTube son impulsadas por Google Brain, que recientemente fue de código abierto como TensorFlow. Al usar TensorFlow, uno puede experimentar con diferentes arquitecturas de redes neuronales profundas utilizando entrenamiento distribuido. El sistema consta de dos redes neuronales. El primero, la generación de candidatos, toma como entrada el historial de visualización del usuario y, mediante el uso de filtros colaborativos, selecciona videos en el rango de …

Puedes leer más detalles aquí ¿Cómo funciona el algoritmo de recomendación de YouTube?

La respuesta anterior realmente no respondió la pregunta. He hablado con algunos ex ingenieros de youtube y tengo la impresión de que youtube utiliza algún tipo de métrica de similitud. Busque Jaccard Similitud y Coseno Similitud, y Lj distancias.

Por lo general, tendrás algún tipo de vector que represente todos los videos que has visto. Y luego podemos comparar este vector, usando estas diversas métricas de similitud, con los vectores de otras personas para tratar de encontrar una coincidencia cercana. Si eres una pareja cercana, entonces los videos que una persona mira probablemente sean relevantes para la otra persona. ¡Pero hay un problema! Estos vectores son de súper alta dimensión, y hacer cálculos con ellos es costoso. El lema de Johnson-Lindenstrauss nos ayuda a resolver este problema.

Básicamente, este lema dice que, dado un grupo de vectores en un gran subespacio, podemos proyectar estos vectores en un subespacio mucho más pequeño de modo que las distancias (calculadas por las métricas de similitud indicadas anteriormente) entre estos vectores se conserven casi por completo. La forma en que podemos hacer esto es bastante sorprendente. Simplemente multiplicamos todos los k-vectores originales por ak por d matriz cuyas entradas se extraen independientemente de una distribución gaussiana, donde d

Por lo que entiendo, las sugerencias de productos de Amazon se realizan de manera similar.

Podría estar equivocado sobre los detalles exactos de lo que hacen YouTube y Amazon, pero las matemáticas son interesantes al menos.

Aquí está la respuesta a partir de 2011:

YouTube usa el algoritmo de recomendación de Amazon

Los ingenieros de Google / Youtube publicaron un artículo sobre cómo funcionan sus recsys en la conferencia ACM Recsys 2010.

En este documento explican: qué datos recopilan de los usuarios, qué algoritmos usan para encontrar videos similares, cómo filtran el ruido, cómo combinan videos relacionados con la actividad del usuario, clasifican elementos basados ​​en varias señales, arquitectura del sistema, métricas de evaluación y También explique la interfaz de usuario de las recomendaciones.

Fuente del artículo: El sistema de recomendación de videos de Youtube

Aunque creo que el sistema ha evolucionado mucho desde entonces, debería darle una idea de cómo funciona el sistema en general.

EDITAR:

Aquí hay un artículo reciente del 7 de octubre de 2016.

El algoritmo de recomendación de YouTube es el tesoro que siempre impulsa a YouTube con millones de audiencia por segundo. Algunas personas pueden saber cómo funciona. Considera todas las categorías principales para dar un mejor rendimiento. El sistema asociado con el algoritmo de recomendación son las redes neuronales. Para esbozar los detalles completos sobre el algoritmo de recomendación de YouTube, simplemente haga clic en este enlace Algoritmo de recomendación de YouTube que hace adictos a los Millennials

No sé por qué YouTube hace esto.