Aprendizaje automático: ¿cómo se puede saber cuándo combinar diferentes características sería útil?

Existe una gran cantidad de literatura que trata el tema de esta pregunta: selección de características.
Como suele ser el caso en ML, su enfoque se basa más en los datos que está tratando en lugar del método, varios de los cuales están disponibles.
Para comenzar, los puntos básicos a tener en cuenta son:
1. Si las características están altamente correlacionadas, entonces combinarlas no sería muy útil.
2. Puede usar Información mutua, Entropía para medir la relevancia de incluir una nueva característica.
3. Por supuesto, uno podría seguir combinando características independientemente de los rendimientos decrecientes. Hay un costo asociado con esto llamado “maldición de la dimensionalidad”, donde los datos de entrenamiento requeridos para entrenar de manera confiable un modelo aumenta exponencialmente con la dimensionalidad de las características. Por lo tanto, se convierte en una compensación entre la utilización de las características más informativas con los datos de capacitación disponibles y el rendimiento requerido del modelo entrenado. (En las tareas del mundo real, los datos de capacitación son ruidosos, tienen valores faltantes y, por lo general, mucho menos de lo requerido, todo lo cual agrega una prima en las funciones utilizadas)

En resumen, combine características si proporcionan una mejora en el rendimiento (clasificación o resultado de regresión); si mejoran la “estructura” de los datos en términos de entropía.