¿Dónde puedo encontrar conjuntos de datos de rango?

Creo que la competencia completa de Kaggle Personalice las búsquedas de hoteles en Expedia: ICDM 2013 es un aprendizaje interesante para clasificar el problema.

Resumen del problema.
La idea general es la siguiente: cuando un usuario ingresa sus preferencias en el motor de búsqueda de hoteles de Expedia, se le mostrará una lista filtrada de hoteles disponibles. El algoritmo de clasificación interna de Expedia clasificará los hoteles para proporcionar un resultado de búsqueda personalizado donde el hotel en la parte superior de la lista es el que tiene la mayor probabilidad de ser reservado por el usuario.

Nuestro trabajo aquí es presentar un modelo que supere el algoritmo de clasificación de Expedia. La métrica utilizada para medir el rendimiento de la clasificación es la ganancia acumulada normalizada con descuento (NDCG) y se basa en los puntajes de relevancia asignados a diferentes hoteles. Se asigna un puntaje de 1 a un hotel si se hace clic en él, 5 si se reserva el hotel y 0 si no se hace clic en el hotel.

Pensamientos aleatorios
El conjunto de datos también es algo grande con 10 millones de filas x 51 características y 399344 búsquedas.

¡También noté un sesgo de posición en los datos! Incluso si los hoteles se muestran en orden aleatorio, existe una probabilidad razonablemente alta de que se reserve el primer hotel que se muestra.

Related Content

¿Por qué se usa el análisis de datos?

¿Existe una forma más eficiente de almacenar tablas y filas sin tener que repetir ID?

¿Cuál es la diferencia entre la investigación de mercado y la ciencia de datos, y cómo se pueden integrar juntos?

¿Qué fascina a la gente sobre la ciencia de datos?

¿Cómo explicaría al público la importancia de generar ideas a partir de los datos?

¿Cuál es su opinión del Certificado de Harvard Data Science?

¿En qué se parecen y se diferencian los problemas establecidos en CS 109 al trabajo como científico de datos real?

Recomendaría mirar una biblioteca para preferencias

Mi favorito personal es el conjunto de datos de preferencia de sushi. Conjuntos de datos de preferencias de SUSHI

William Chen

Microsoft tiene muchos de estos con su compañía ficticia “Contoso”.

William Chen

More Interesting

¿Cuáles son las técnicas más modernas de minería de datos / aprendizaje automático sobre datos inmobiliarios?

¿Cuál es la diferencia entre CART y los árboles de regresión potenciados?

¿Qué preparativos son necesarios para ser un científico de datos?

¿Qué tan bien se está utilizando la ciencia de datos en Quora?

Cómo encontrar la cantidad óptima de camas necesarias para una sala de hospital utilizando análisis de datos

¿Cuáles son las habilidades básicas de un científico de datos?

¿Cuáles son algunas buenas academias en línea como Jigsaw que proporcionan certificación para Big Data Analytics?

¿Cuáles son las nuevas tecnologías de big data?

¿Cuál es una explicación amable de GradientBoost?

¿Cuáles son los proyectos de ciencia de datos más interesantes en Quora?

Entre las siguientes compañías, ¿cuál tiene el mejor equipo de Data Science?

¿Qué es lo primero que haces al mirar un nuevo conjunto de datos?

Cómo acceder a los valores de estas variables MATLAB en base a una matriz que almacena los índices de las columnas requeridas

¿Cuáles son los mejores ejemplos de ciencia de datos aplicados al comercio minorista?

¿Qué trabajo se da a los estudiantes de primer año en el análisis de datos?

Web Analytics