Cómo incorporar nuevas características en los modelos de aprendizaje automático existentes

¡Depende si tengo prisa o no!

Suponiendo que puede volver a llenar el antiguo conjunto de entrenamiento con las nuevas funciones …

Si mi intuición me dice que esta característica no será extraordinariamente importante y tengo muchas otras tareas que hacer, la dejaría desgarrar: solo construir el modelo.

Por otro lado, si tengo algo de tiempo, me gustaría saber aproximadamente cuáles son las características de la nueva característica. Me gustaría:

  • trazar una caja y bigote o violín trama de la nueva característica contra las dos clases. Sería feliz si hay una cantidad “decente” de separación entre las dos parcelas. Es decir, no se superponen demasiado. Eso significa que hay alguna señal en el ruido.
  • empareja la gráfica de la nueva función con la mayor cantidad de funciones antiguas que pueda (la utilidad está limitada por el tamaño de su monitor). Lo que está buscando: es la nueva característica correlacionada con las características antiguas (un patrón ovalado largo) o es más independiente de otras características (forma globular). Lo último es mejor porque significa que estás agregando nueva información.
  • construya un modelo de árbol y vea cuál es la importancia variable de la nueva característica. ¿Está de acuerdo con mi intuición? ¿El modelo con la nueva función mejora la precisión del conjunto de prueba (o cualquier medida que elija)? Además, si la importancia variable de la nueva característica es enorme, me preocuparía, especialmente si se encuentra en un entorno de adversarios (hay malos que intentan vencer a su modelo).
  • Revise cualquier otra característica antigua para ver si hay una manera inteligente de combinar una característica antigua con las nuevas. El aprendizaje automático es bastante pobre para descubrir cómo tener en cuenta las relaciones interesantes. Puede hacerlo a través de la “fuerza bruta” con diversos grados de éxito, pero a costa de utilizar el conjunto de entrenamiento para hacerlo. Su conjunto de capacitación es un recurso valioso, por lo que proporcionar al ML una mejor información parcial y probabilística conservará este recurso para mejorar el modelo en general.
  • si es posible, buscaría ejemplos de conjuntos de capacitación específicos que vayan en contra de cómo podría esperarse que la nueva característica ayude al modelo. Siempre me preocupa que ML dependa demasiado de cualquier característica. Esto obligará a ML a ser más sofisticado en su “comprensión” del espacio del problema, y ​​evitará una visión demasiado simplificada. Esto es “estratificar” el conjunto de entrenamiento para asegurarse de que tenga una cobertura adecuada de casos raros pero importantes. (Nota: este enfoque es malo si está utilizando un modelo bayesiano porque trastorna las probabilidades anteriores).
  • considere crear un submodelo a partir de las características que pueden crear una nueva característica fuerte. Nuevamente, ML no es excelente para dividir el Espacio del problema en submodelos significativos.

Si tengo más pensamientos, los agregaré más tarde.

Asumiendo que tiene una verdad fundamental para los puntos de datos con nuevas características, es simple:
Vuelva a entrenar el clasificador.
De lo contrario, será más difícil y tendrá que ser más específico sobre qué tipo de clasificador está utilizando y dar más detalles sobre la naturaleza de su problema.

Tendría que entrenar al modelo nuevamente con las nuevas características. O bien, entrene a un modelo con solo las nuevas características y cree un conjunto. Un conjunto es una combinación de varios modelos.