¿Dónde puedo encontrar conjuntos de datos de rango?

Creo que la competencia completa de Kaggle Personalice las búsquedas de hoteles en Expedia: ICDM 2013 es un aprendizaje interesante para clasificar el problema.

Resumen del problema.
La idea general es la siguiente: cuando un usuario ingresa sus preferencias en el motor de búsqueda de hoteles de Expedia, se le mostrará una lista filtrada de hoteles disponibles. El algoritmo de clasificación interna de Expedia clasificará los hoteles para proporcionar un resultado de búsqueda personalizado donde el hotel en la parte superior de la lista es el que tiene la mayor probabilidad de ser reservado por el usuario.

Nuestro trabajo aquí es presentar un modelo que supere el algoritmo de clasificación de Expedia. La métrica utilizada para medir el rendimiento de la clasificación es la ganancia acumulada normalizada con descuento (NDCG) y se basa en los puntajes de relevancia asignados a diferentes hoteles. Se asigna un puntaje de 1 a un hotel si se hace clic en él, 5 si se reserva el hotel y 0 si no se hace clic en el hotel.

Pensamientos aleatorios
El conjunto de datos también es algo grande con 10 millones de filas x 51 características y 399344 búsquedas.

¡También noté un sesgo de posición en los datos! Incluso si los hoteles se muestran en orden aleatorio, existe una probabilidad razonablemente alta de que se reserve el primer hotel que se muestra.

Recomendaría mirar una biblioteca para preferencias

Mi favorito personal es el conjunto de datos de preferencia de sushi. Conjuntos de datos de preferencias de SUSHI

Microsoft tiene muchos de estos con su compañía ficticia “Contoso”.