¿Cuál es la diferencia entre un conjunto de datos y una característica?

Por lo general, el conjunto de datos se refiere a los datos que tiene, se combina tanto de variables dependientes como independientes. En la jerga ML, el conjunto de datos es el par (X, y) donde X se refiere al conjunto de variables independientes e y es el objetivo. X también se denomina conjunto de características. Además, utilizando variables / características de X puede generar otras características también.

Por ejemplo:

Supongamos que tenemos un problema minorista en el que tiene que predecir las ventas diarias de una tienda. Tiene datos diarios de la tienda, como ventas diarias, si ese día fue feriado o no, festival o no, si las ofertas / descuentos se estaban ejecutando ese día.

Entonces X sería (date, holiday_or_not, festival_or_not, offer_running_or_not) y es un conjunto de características.

Serían ventas diarias.

Juntos (X, y) es el conjunto de datos.

También utilizando características en X, puede generar otras características también como sales_on_same_day_last_week, average_monthly_sales, etc. Estas, junto con X, también se denominarían conjunto de características.

Conjunto de datos = el conjunto de datos es completo

Las características componen el conjunto de datos. La característica explica el conjunto de datos

Si el conjunto de datos es una matriz, una característica sería una columna en ella.

Cada fila será un ejemplo. Cada columna será una característica.

More Interesting

¿Por qué los nodos en una capa oculta producen resultados diferentes (cuando se basan en las mismas entradas)?

¿Cómo funciona el entrenamiento multi-gpu?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

¿Qué lenguaje es mejor para hacer big data y machine learning (en términos de rendimiento) Java o Python?

¿Se pueden utilizar algoritmos genéticos y optimización de enjambre de partículas para construir sistemas de reconocimiento de voz?

¿Cuáles son algunos problemas o preguntas de la vida real que el aprendizaje automático ha resuelto y que no se pueden resolver adecuadamente por otros medios?

¿Cuáles son algunas redes neuronales diferentes que podrían usarse como algoritmos de control en cuadricópteros autónomos?

¿Aprender implementando un buen enfoque, o leyendo y usando marcos como TensorFlow?

¿Cómo funciona el CAPTCHA 'No soy un robot'?

¿Hay algún paquete de código abierto para aplicar ML a las publicaciones de Twitter?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

Cómo convertirse en un cerebro cuant (un quant que usa IA)

¿Necesitamos aplicar una prueba de significación estadística en el aprendizaje automático?

¿Debo aprender el aprendizaje automático y el desarrollo de aplicaciones de Android simultáneamente? En caso afirmativo, ¿a qué lenguaje (s) de programación debo recurrir?

¿Cuáles son los conjuntos de datos de visión por computadora más populares en este momento?