¿Cómo agrupamos el comportamiento de navegación de usuarios similares y seleccionamos características separables?

Hola y gracias por la pregunta

Tengo que ser sincero, nunca he trabajado en un problema similar, así que no tome mi respuesta como crédito.

De todos modos, tal vez comenzaría normalizando los datos de cada usuario por sus vistas totales. Y luego usaría algún tipo de algoritmo de agrupamiento, k-means, SOM o bosque aleatorio en su modo no supervisado.

Considerando las características separables, no veo características en la matriz. Veo la cantidad de visitas de un usuario en particular a una página, pero no veo las características que caracterizan a un usuario y / o una página. Por lo tanto, me resulta difícil ver cómo se pueden seleccionar las funciones. Otro punto es cuando usa la palabra “separable”. Esto generalmente supone la presencia de clases, que no puedo ver en esa matriz.

Puede estar completamente fuera. Como dije, nunca antes había trabajado en un problema así.

Espero eso ayude.

A2A

Daré un par de consejos basados ​​en mi experiencia aplicando el aprendizaje automático a conjuntos de datos. Tengo la mayor experiencia con datos genómicos, pero los conceptos estadísticos son generales y tenía un conjunto de datos muy similar.

Parece que este conjunto de datos no está etiquetado, por lo que su objetivo es la agrupación no supervisada. Yo mismo no he realizado la agrupación sin supervisión, pero sé que la agrupación k-means es un ejemplo de agrupación no supervisada, y hay otros métodos que puede consultar. K-means básicamente creará grupos en el conjunto de datos basados ​​en distancias euclidianas.

También debe considerar hacer un análisis de componentes principales (PCA) en el conjunto de datos. Básicamente, esto transformará sus datos para que se proyecten en los vectores que tienen la mayor variación. Puede ser útil hacer PCA primero y luego k-significa agrupamiento en el conjunto de datos transformado (aunque existen escollos sutiles para PCA).

Algo más que tal vez desee considerar son los sistemas de recomendación. Básicamente, compañías como Netflix y Amazon tienen buenas técnicas para recomendar películas / libros / aplicaciones / etc. a otras personas en función de su enorme base de datos de clientes. Recuerdo haber escuchado una presentación técnica sobre ellos, pero no recuerdo mucho para dar un ejemplo. Sin embargo, recuerdo que es intrigante.

Todos estos métodos requieren una comprensión de las matemáticas y las estadísticas. Una Introducción al aprendizaje estadístico es un PDF gratuito que fue muy útil para mí, y tiene una sección sobre agrupación no supervisada.

¡Espero que esto ayude!

Actualización: la técnica de recomendación que debe considerar se llama filtrado colaborativo. Puede o no ser útil