¿Cuáles son algunos consejos generales sobre selección de características e ingeniería que todo científico de datos debe saber?

Puede observar cada característica individual y ver qué tan bien se correlacionan con las clases de forma independiente utilizando alguna métrica de clasificación.

Por ejemplo, una métrica particular podría ser la correlación de Pearson:

[matemáticas] r_ {xy} ^ 2 = (\ frac {cov (x, y)} {\ sqrt {var (x) var (y)}}) ^ 2 [/ matemáticas]
Donde x son los valores que una característica adquiere para múltiples observaciones e y son las clases correspondientes.

1 es alta correlación, 0 es ninguno. Si aplica esta métrica a todas sus funciones, las clasifica y luego puede seleccionar un subconjunto de funciones (es decir, las funciones clasificadas con el 10% más alto) y observar el rendimiento. Puede trazar la precisión de diferentes subconjuntos para encontrar la cantidad ideal de características para mantener. Esto se hace cuando tiene varias características (series de tiempo, ADN)

También podría hacer esta clasificación con el clasificador mismo, ya que encuentra pesos y esos pesos podrían considerarse una clasificación.

Puede crear nuevas características utilizando el análisis de componentes principales (PCA) en su matriz de diseño.

Tienen razón y es por eso que uno debe escuchar y leer blogs de los Maestros de Kaggle.

La selección de características es importante y desafortunadamente aún más un arte que una ciencia, aunque algunos métodos científicos pueden aplicarse para la selección de características.

  1. Covarianza entre características. Si 2 características están cambiando de la misma manera, no sirve el propósito general de tener ambas en el sistema.
  2. Hiper-características: estas características se crean utilizando una combinación de 2 características.
  3. Tenga cuidado con las características que exhiben efecto mariposa. Pequeños cambios en estas características muestran un gran cambio en la salida. Especialmente si son de naturaleza escasa. Pueden crear un error masivo.
  4. Ejecute el sistema como si solo tuviera esa característica y vea el impacto en el resultado.
  5. Por último, pero no menos importante, encuentre la forma correcta de reducir el error según el volumen de datos. Para conjuntos de datos más pequeños, demasiadas personas fallan porque no realizan la validación K-Fold.

¿Toma mucho tiempo? Sí. Necesita paciencia y / o experiencia. Desafortunadamente.

Depende del problema.

El caso ideal es cuando sabes algo sobre el dominio. Luego, puede preguntarse qué cree que puede hacer con sus características que serían informativas para la tarea en cuestión.

Si tiene un conjunto de datos de recuadro negro, debe explorar. Hacer observaciones sobre las características. Los conocerá y probablemente notará patrones. Vea a dónde lo llevan estos patrones. Así es como te topas con rasgos dorados.

Tienes que ser creativo, observador y usar el sentido común.

por cierto, PCA es terrible para crear funciones y terrible para visualizar datos. Cualquiera que le diga que use PCA para cualquier cosa que no sea compresión probablemente solo tenga experiencia a través de libros de texto.

En realidad, el éxito de todos los algoritmos de Machine Learning depende de cómo presente los datos. Por ejemplo, una imagen puede ser presentada por ambos píxeles u otras características de alto nivel, como los bordes.
Estas características doradas se pueden extraer de dos maneras: 1. Por un experto humano (conocido como hecho a mano) o 2. Mediante el uso de métodos de extracción de características automatizados como PCA o herramientas de aprendizaje profundo como DBN. Tanto 1 como 2 se pueden usar uno encima del otro también.
Pero para evaluar la bondad de cada característica, hay algunos criterios como el índice de Gini, la ganancia de información, la relación de probabilidad, etc.

Todos los científicos de datos deben conocer la relación entre las características utilizadas en un modelo y el ajuste de un modelo a un conjunto de datos. Cuanto mejor se ajuste el modelo, mejor será para resolver un problema dado.

Un modelo puede ser un buen ajuste para un conjunto de datos, puede ser insuficiente o puede sobreajustarlo.

Cuando su modelo no está equipando un conjunto de datos, debería considerar la introducción de nuevas características. Las nuevas características permiten que el modelo expanda el espacio de hipótesis y le permite descubrir señales que mejoran el ajuste.

Estas nuevas características pueden provenir del proceso costoso pero a veces necesario de agregar nuevas métricas a sus observaciones (por ejemplo, nuevas preguntas en una encuesta, nuevos instrumentos que toman nuevas medidas físicas) o a través del método más barato, pero no siempre útil, de crear nuevas características a partir de los existentes: aquí la intuición puede ayudarlo a guiar su modelo seleccionando características que usted considera relevantes pero que el modelo no ha descubierto.