Por lo general, el conjunto de datos se refiere a los datos que tiene, se combina tanto de variables dependientes como independientes. En la jerga ML, el conjunto de datos es el par (X, y) donde X se refiere al conjunto de variables independientes e y es el objetivo. X también se denomina conjunto de características. Además, utilizando variables / características de X puede generar otras características también.
Por ejemplo:
Supongamos que tenemos un problema minorista en el que tiene que predecir las ventas diarias de una tienda. Tiene datos diarios de la tienda, como ventas diarias, si ese día fue feriado o no, festival o no, si las ofertas / descuentos se estaban ejecutando ese día.
- ¿Qué papel jugará la ciencia de datos en las elecciones presidenciales de 2012?
- Tengo muchos datos de clientes. ¿Qué algoritmos de aprendizaje automático serían mejores para predecir qué productos desea comprar cada cliente?
- ¿Cómo debo entrenar mi modelo de tren con un modelo de regresión?
- ¿En qué se diferencia LSTM de RNN? En una explicación laica.
- ¿Qué significa esto exactamente, "Cambiar los puntos de inicialización durante el entrenamiento" para el aprendizaje profundo?
Entonces X sería (date, holiday_or_not, festival_or_not, offer_running_or_not) y es un conjunto de características.
Serían ventas diarias.
Juntos (X, y) es el conjunto de datos.
También utilizando características en X, puede generar otras características también como sales_on_same_day_last_week, average_monthly_sales, etc. Estas, junto con X, también se denominarían conjunto de características.