No estoy seguro si entiendo su pregunta correctamente. Corríjame si me equivoco: lo que está pidiendo es cómo generar datos “artificiales” para experimentar con MLR.
Claro, puede extraer muestras aleatorias de una distribución particular para crear conjuntos de datos de entrenamiento y prueba. Sin embargo, tenga en cuenta que su modelo MLR solo funcionará bien con los datos extraídos de la misma distribución. Más concretamente, si entrena un sistema MLR en algunos datos de juguetes que no tienen nada que ver, por ejemplo, clasificando las opiniones de los clientes por sentimiento (digamos de una escala 1-10 para negativo a positivo), este modelo no lo ayudaría a abordar el último.
Sugerencia: Si desea generar datos de entrenamiento artificial para MLR, a menudo puede simplemente usar conjuntos de datos de regresión y “aplastar” la variable explicativa en un rango entero fijo.
- ¿El mercado de trabajo para la ciencia de datos en unos años seguirá siendo el mismo de hoy?
- ¿Cuál es la configuración recomendada para una aplicación de Big Data?
- ¿Cuáles son los temas candentes y / o importantes en la gestión de datos en la nube y en la investigación de la computación en la nube? Recientemente comencé mis estudios de doctorado y actualmente estoy buscando un problema en la computación en la nube.
- ¿Cuál es su software de análisis de datos preferido y por qué?
- ¿Cuáles son algunos de los procedimientos / metodologías estadísticas comúnmente utilizados en las pruebas A / B?
Tal vez una idea para jugar con un conjunto de datos: el conjunto de datos de la película Te IMDb (Análisis de sentimientos). Aquí, el sentimiento se “resumió” para una tarea de clasificación binaria, p. Ej. 1-4 estrellas = negativo, 7-10 estrellas = positivo. Lo que realmente puede hacer es eliminar IMDb para esas revisiones y obtener las calificaciones de enteros de 1-10 estrellas para entrenar un sistema MLR.