¿Cuál es la diferencia entre datos etiquetados y datos no etiquetados?

(YO)
Entrada ————— Salida
1 ———————-> 1
2 ———————-> 4
3 ———————-> 9
4 ———————-> 16
.. ———————-> ..

Si tiene un problema, prediga cuál sería la salida para la entrada = 6,
Entonces, obviamente, puede predecirlo como 36, ya que puede aprender el patrón entre las entradas y las salidas. Aquí se muestran los puntos etiquetados. Este tipo de problema se conoce como tarea de aprendizaje supervisado .

(II)
Entrada : 1, 2, 3, 4, 5, 6, 101, 102, 103, 104, 105, 106, 1001, 1002, 1003, 1004

Aquí no puedo pedirle que prediga la salida de 10002, porque no le he dado la salida de ninguna de las entradas, por lo que lo menos que puede hacer es organizarlas de acuerdo con su patrón, como la agrupación. Este tipo de datos donde no tiene salida se denomina conjunto de datos sin etiquetar. Este tipo de problema es el aprendizaje no supervisado.

(III)
También hay un tercer tipo de problema en el campo ML, el aprendizaje semi-supervisado , que contiene una mezcla de puntos etiquetados y puntos no etiquetados. La tarea es organizar los puntos de datos que poseen un comportamiento similar y luego evaluar los valores. Clasificación de imagen, etc.

Los datos etiquetados son un grupo de muestras con un significado o etiqueta específicos.
Imagine que tiene un conjunto de datos compuesto por la información relacionada con 5 pacientes diferentes. Para cada paciente tiene algunos síntomas diferentes, y también tiene el resultado de una prueba de cáncer específica. Según el resultado de la prueba de cáncer, puede establecer una etiqueta en cada paciente y especificar si tiene una prueba negativa o positiva.
Para cada paciente> grupo de varios síntomas> una etiqueta de prueba de cáncer.

Esa etiqueta también es la etiqueta de su conjunto de datos.

También puede crear esas etiquetas a partir de un conjunto de datos sin etiqueta. Es decir, si solo tiene un conjunto de síntomas para esos pacientes, puede decidir qué columna debe desempeñar el papel de etiqueta y asignar esa columna como la etiqueta de su conjunto de datos.

Incluso si los valores de una columna específica no son discretos, puede diseñar una etiqueta a partir de valores continuos; por ejemplo: si la edad está entre 0 – 30> etiqueta: joven, 31-50> etiqueta: adulto …

Lo primero que le sugeriría que haga es leer y comprender la diferencia entre el aprendizaje supervisado y el no supervisado. Esto responderá a su pregunta sobre datos etiquetados y no etiquetados.

Aquí está el enlace de quora para la diferencia entre dos métodos de aprendizaje:

¿Cuál es la diferencia entre los algoritmos de aprendizaje supervisados ​​y no supervisados?

Cuando las personas hablan de datos etiquetados y no etiquetados, lo que quieren decir es “¿sus datos contienen la información que está tratando de predecir?”

Imagine que quiere construir un sistema que prediga el precio de venta de las casas. Sus datos de capacitación pueden consistir en una gran cantidad de información sobre cada casa: la cantidad de habitaciones, la cantidad de baños, los metros cuadrados, el código postal, etc. Para predecir el precio de venta de las casas, también querrá su datos de capacitación para incluir el precio de venta de esas casas. Esas son las “etiquetas”. Usted entrena el algoritmo para predecir el precio de venta correcto cuando ve un cierto tipo de casa, y luego puede generalizar a casas nuevas donde no conoce el precio de venta con anticipación.

Alternativamente, es posible que desee construir un sistema separado que solo agrupe las casas en su conjunto de datos en una de las k clases. Para ese tipo de tarea, no necesita conocer la agrupación con anticipación. En cambio, el algoritmo puede encontrar grupos de casas que son similares entre sí y no similares a los otros grupos. Depende de usted interpretar lo que cada grupo de casas “significa”. Debido a que no proporcionamos datos que contienen la membresía de grupo correcta por adelantado, llamamos a estos datos “sin etiqueta”.

¿Eso ayuda?

More Interesting

¿Cuál es el flujo de trabajo típico para usar el aprendizaje profundo para resolver un problema?

¿Cuál es la mejor computadora portátil que puedo obtener para aprender el aprendizaje profundo con CUDA?

¿Por qué algunos clasificadores no pueden manejar los atributos continuos?

¿Es posible darle a una computadora millones de imágenes de varios objetos, y se da cuenta de que hay cosas como animales, platos de cocina, montañas, etc. sin que nosotros lo digamos, y cómo se hace esto exactamente?

¿Qué tan difícil es entrenar idiomas indios con CMUSphinx?

¿Qué debo buscar al comprar una computadora para ejecutar experimentos de Machine Learning?

¿Cuáles son los diferentes métodos de reducción de dimensionalidad en estadística?

¿Se ha resuelto el problema de reconocimiento de caracteres escritos a mano?

¿Alguien puede presentar un tutorial o un documento sobre cómo elegir el valor de 'C' en la función de regresión logística scikit-learn?

¿Cuál es el mejor foro de red neuronal en Internet?

¿Qué algoritmos de aprendizaje automático no requieren escalado de características?

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

¿Ha habido algún éxito con el aprendizaje profundo bayesiano?

¿Es posible que un ingeniero de procesamiento de señales se involucre en el campo del aprendizaje automático?

Cómo implementar el aprendizaje automático en una aplicación de Android