El objetivo del sistema de recomendación de video de YouTube es simple: proporcionar recomendaciones de video personalizadas de alta calidad a sus usuarios. La forma en que YouTube puede lograr este objetivo es todo lo contrario. Como era de esperar, la gente de Google ha desarrollado soluciones elegantes para este problema como se explica en el documento ‘El sistema de recomendación de videos de YouTube’. Lo que sigue aquí es una cuenta abreviada y simplificada de este documento para los no técnicos.
Desafíos
Hay una serie de desafíos que se interponen en el camino de proporcionar recomendaciones de video personalizadas. Primero, la cantidad de videos cargados en YouTube es asombrosa. En segundo lugar, gran parte de este video tiene metadatos deficientes, como títulos y descripciones incompletos o irrelevantes. En tercer lugar, las métricas que están disponibles para el recomendación de YouTube para medir el interés del usuario son mucho más vagas que las disponibles para otros sistemas de recomendación como Amazon. Por ejemplo, comprar un producto es un indicador más claro del interés del usuario que mirar un video. Además, las recomendaciones de videos de YouTube deben ser nuevas ya que muchos videos de YouTube tienen una vida útil corta, y los videos más antiguos a menudo serán de poco interés para los usuarios.
- ¿Puede un autoencoder sobreajustar cuando tiene una cantidad mucho menor de neuronas de capa oculta que la capa de entrada y también se usa la deserción?
- ¿Cuál es la diferencia entre un contenedor y un algoritmo de filtro en Data Mining / Machine Learning?
- ¿Dónde empiezo a aprender reconocimiento de imágenes con algoritmos de aprendizaje automático?
- ¿Qué tan importante es entender el cerebro para el aprendizaje profundo y viceversa?
- ¿Es posible compilar una función NumPy para TensorFlow como PyAutoDiff para Theano?
Fuentes de datos
El sistema de recomendaciones de YouTube extrae sus datos de dos fuentes principales. El primero es el contenido de datos, como metadatos como títulos y descripciones. El segundo son los datos de actividad del usuario, que se clasifican como atributos explícitos, como calificaciones y favoritos, y atributos implícitos, como el tiempo de visualización.
Determinar videos relacionados y candidatos recomendados
Antes de generar candidatos de recomendación, el sistema determina un conjunto de videos relacionados que es probable que un usuario vea después de ver un video semilla dado. Para hacerlo, utiliza un método llamado minería de reglas de asociación o visita conjunta para identificar pares de videos vistos en una sesión determinada y calcular una puntuación de relación para estos videos. Luego, el sistema combina las reglas de asociación de los videos relacionados con la actividad de un usuario en el sitio, como los videos vistos y favorecidos por el usuario, para crear lo que llama un conjunto de semillas. Una vez hecho esto, rastrea rutas de videos relacionados de este conjunto de semillas para generar recomendaciones de candidatos. Piense en el conjunto de semillas como el centro de una red y los posibles candidatos de recomendación como puntos en esa red que se extienden hacia afuera desde el centro. Cuanto más cerca del centro de la red esté un punto, más relacionado estará con el conjunto de semillas; cuanto más lejos, menos relacionado.
Clasificación de candidatos a recomendación
Una vez que se ha generado un conjunto de recomendaciones de candidatos, se clasifican según diversas señales, que se pueden organizar en tres grupos: 1) calidad de video, 2) especificidad del usuario y 3) diversificación. Las señales de calidad de video incluyen métricas como conteo de vistas, clasificaciones de video, comentarios, favoritos y actividades para compartir. Las señales de especificidad del usuario se utilizan para impulsar videos que son similares a las preferencias únicas de un usuario. Las propiedades del video semilla, como el conteo de vistas y el tiempo de visualización, se utilizan para generar estas señales de especificidad del usuario. Para aumentar la diversidad, se eliminan los videos candidatos de recomendación que son demasiado similares entre sí y se reemplazan con contenido más variado. La lógica de tal diversidad es que un usuario tiene múltiples intereses y preferencias de visualización correspondientes; por lo tanto, un conjunto de recomendaciones demasiado similares solo al video semilla no reflejará con precisión los gustos generales del usuario.
Resultados
El sistema de recomendaciones de YouTube ha funcionado bien para mejorar la participación del usuario. En el momento de la publicación del artículo, los videos recomendados representaban aproximadamente el 60% de los clics en la página de inicio. Además, se encontró que durante un período de 21 días, el porcentaje de clics (CTR) para los videos recomendados se realizó al 207% del CTR promedio para los videos más vistos.
Espacio para el crecimiento
Si bien el sistema de recomendación de YouTube ha funcionado bien, parece que hay margen de mejora. De hecho, otros sistemas de recomendación, como el motor Trouvus, han logrado mejores resultados que los documentados en el documento de YouTube. Además, debe tenerse en cuenta que los proveedores de contenido que usan YouTube para alojar contenido no necesariamente tendrán su propio contenido recomendado a los usuarios por el sistema de YouTube. Por lo tanto, tiene sentido que dichos proveedores de contenido, suponiendo que tengan sus propias propiedades digitales (en las que pueden colocar sus videos), busquen adquirir su propio sistema de recomendación.
FUENTE: – ¿Cómo funciona el sistema de recomendaciones de YouTube?