¿Podemos obtener automáticamente datos de prueba / entrenamiento para un sistema Machine Learning to Rank (MLR)?

No estoy seguro si entiendo su pregunta correctamente. Corríjame si me equivoco: lo que está pidiendo es cómo generar datos “artificiales” para experimentar con MLR.

Claro, puede extraer muestras aleatorias de una distribución particular para crear conjuntos de datos de entrenamiento y prueba. Sin embargo, tenga en cuenta que su modelo MLR solo funcionará bien con los datos extraídos de la misma distribución. Más concretamente, si entrena un sistema MLR en algunos datos de juguetes que no tienen nada que ver, por ejemplo, clasificando las opiniones de los clientes por sentimiento (digamos de una escala 1-10 para negativo a positivo), este modelo no lo ayudaría a abordar el último.

Sugerencia: Si desea generar datos de entrenamiento artificial para MLR, a menudo puede simplemente usar conjuntos de datos de regresión y “aplastar” la variable explicativa en un rango entero fijo.

Tal vez una idea para jugar con un conjunto de datos: el conjunto de datos de la película Te IMDb (Análisis de sentimientos). Aquí, el sentimiento se “resumió” para una tarea de clasificación binaria, p. Ej. 1-4 estrellas = negativo, 7-10 estrellas = positivo. Lo que realmente puede hacer es eliminar IMDb para esas revisiones y obtener las calificaciones de enteros de 1-10 estrellas para entrenar un sistema MLR.