¿Hay algún beneficio al agregar las características originales junto con las reducidas por PCA?

¡¡¡NO NO NO NO NO NO NO!!! ¡No hagas eso!

Las redes neuronales y las regresiones (en realidad, un caso especial de redes neuronales) tienen, de manera bastante universal, un componente lineal primero. La unión de las características PCA y las características originales dependerá casi linealmente. Así es como funciona PCA. Eso significa que al elegir pesas, habrá muchos juegos de pesas que son aproximadamente igual de buenos. Eso reducirá la convergencia incluso más que solo agregar algunas características totalmente aleatorias.

Hay, por supuesto, otros algoritmos de aprendizaje que no tienen ese problema en particular, pero aún así es probable que pierda su tiempo y potencia informática. Eso es porque:

¡Las características de PCA y las características originales contienen la misma información!

Entonces, si su algoritmo mejora de alguna manera al usar ambos, probablemente no esté aprendiendo de la información real.

No es razonable agregar (creo que lo lograría por concatenación) el vector de características original a los vectores de características obtenidos después de PCA. Las razones de esto son dobles:

  1. El propósito de PCA es realizar una correlación entre las dimensiones. Por lo tanto, las diferentes características del vector de características obtenidas después de PCA no están correlacionadas y cada dimensión aporta una característica específica (y probablemente interpretable) de los datos. Agregar las características originales aumenta la correlación entre las dimensiones.
  2. La segunda razón para PCA es la reducción de dimensionalidad. Después de PCA, a menudo es suficiente retener las primeras k dimensiones clasificadas en términos de su varianza. Estas dimensiones se derivan de los datos subyacentes y retienen la mayor parte de la información importante contenida en los datos. Agregar las características adicionales no agrega ninguna información nueva. Por supuesto, los datos se asignarían ahora a un espacio de dimensiones superiores. Sin embargo, esto no serviría para aumentar el espacio entre dos vectores de características. Entonces, este aumento en la dimensionalidad es solo un ejercicio en vano.

En otras palabras, agregar las características originales a las características reducidas prácticamente elimina el punto de usar PCA en primer lugar. Nunca me he encontrado con una situación hasta ahora, donde tuve que incluir las características originales con las reducidas. Si observa que el algoritmo funciona mejor en un conjunto de características de este tipo, implica que el algoritmo está buscando una transformación diferente en el conjunto de características y no características no correlacionadas. En tales casos, trataría de usar una red neuronal donde se puedan aprender automáticamente diferentes transformaciones basadas en datos, que son óptimas para el algoritmo.