¿Qué es la ingeniería de características y el aprendizaje automático supervisado?

Los dos términos están relacionados, pero NO son lo mismo y, por lo tanto, hacerles una pregunta es similar a preguntar “¿qué es el oxígeno y qué es la fisiología?”

Sin embargo, le daré una respuesta breve (todavía le aconsejo que separe su pregunta e investigue los términos de forma independiente).

La ingeniería de características es el proceso de analizar, comprender, agregar / crear, adaptar y eliminar las variables de un conjunto de datos para mejorar su modelo de aprendizaje automático. Por ejemplo, supongamos que queremos predecir la esperanza de vida de alguien a partir de una serie de características físicas:

  • Altura
  • Peso
  • Ingesta calórica / día
  • Consumidor de alcohol?
  • ¿Fumador?
  • Vitaminas
  • Edad de fallecimiento del progenitor 1
  • Edad de fallecimiento del progenitor 2
  • Etc …

Puede incluir todas estas variables en su modelo y obtener una edad de esperanza de vida decente. Pero observa sus variables y sabe por conocimiento previo que la altura y el peso pueden usarse para calcular el IMC. Entonces, en lugar de usar dos variables, calcula el IMC de la persona y usa una variable en su lugar. Del mismo modo, en lugar de tener alcohol y fumar como variables individuales, podría idear alguna variable que tenga en cuenta todas las toxinas que ingiere una persona. El énfasis está en saber cuál es el dominio del estudio ; eso le permitirá diseñar sus características (es decir, variables) para que sean relevantes para el problema. Ingeniería de características

El aprendizaje automático supervisado es el proceso de capacitación de un algoritmo para predecir algún valor, en el que el proceso de capacitación contiene datos etiquetados. Por ejemplo, si quisiéramos enseñarle a un niño a clasificar a un animal como mamífero o pez, le daríamos ejemplos de entrenamiento etiquetados:

Pescado: mero, salmón, atún, tiburón, pez payaso

Mamífero: oso, elefante, león, caballo, foca

Estos ejemplos tienen características / variables que puede decidir diseñar si lo desea. Los más obvios son el peso, la cantidad de extremidades, la cantidad de huesos, el promedio de años de vida, la cantidad de dientes, escamas o pelo, huevos o nacimientos vivos, etc.

Debido a que nuestra lista ya tiene algunos grupos dados, y la membresía grupal es algo que queremos predecir, entonces cuando le digo que prediga la membresía grupal de una jirafa, ha etiquetado ejemplos de los cuales sacar su conclusión. Por lo tanto, el método que usó es supervisado, ya que recibió cierta supervisión para tomar la decisión.

Por otro lado, podría darle una lista de información arbitraria, por ejemplo:

Filadelfia, 32000, G

Nueva York, 63800, J

Londres, 28190, J

Johannesburgo, 92000, S

Melbourne, 19000, K

Taipei, 20000, G

Sin que yo te diga qué representan esos datos, no puedo necesariamente pedirte que predigas algo de ellos, ¿verdad? Cualquier cosa que trates de inferir de ella, por lo tanto, no está supervisada.

(PD: hice esos números y letras).

¿Ves cómo preguntar sobre ingeniería de características y aprendizaje automático supervisado son dos preguntas separadas? No es fácil profundizar en uno u otro sin que sean distintos entre sí.