Cómo usar el aprendizaje automático para encontrar usuarios similares

Imagine que tenemos una matriz de usuario contra tema, cada elemento en la matriz representa un puntaje entre 0 y 1 para la preferencia que un usuario tiene sobre ese tema.

OK para que pueda tomar el coseno de dos usuarios para determinar su similitud.

Ahora imagine un nuevo usuario y quiero identificar esta preferencia de los usuarios para cada tema haciendo la menor cantidad de preguntas posibles, ¿cómo puedo lograr esto?

Depende de los datos … Pero probablemente comenzaría con una regresión o algo así para ver si alguno de los temas está altamente correlacionado. Quizás agregue algunos términos de interacción.

Más allá de eso, buscaría en la agrupación.

Pero depende de los datos. Técnicamente, podría no haber una correlación útil y es posible que no obtenga ningún apalancamiento, pero también conocer los datos le permitirá elegir mejor el tipo de algoritmo y ajustar los parámetros para encontrar un buen ajuste.

descomposición de valores singulares -> k-means -> k-nn condicional es un buen primer paso.

el hashing sensible a la localidad es un buen algoritmo aleatorio para una recuperación bastante rápida ~ kNN