¿Hay algún beneficio al agregar las características originales junto con las reducidas por PCA?

¡¡¡NO NO NO NO NO NO NO!!! ¡No hagas eso!

Las redes neuronales y las regresiones (en realidad, un caso especial de redes neuronales) tienen, de manera bastante universal, un componente lineal primero. La unión de las características PCA y las características originales dependerá casi linealmente. Así es como funciona PCA. Eso significa que al elegir pesas, habrá muchos juegos de pesas que son aproximadamente igual de buenos. Eso reducirá la convergencia incluso más que solo agregar algunas características totalmente aleatorias.

Hay, por supuesto, otros algoritmos de aprendizaje que no tienen ese problema en particular, pero aún así es probable que pierda su tiempo y potencia informática. Eso es porque:

¡Las características de PCA y las características originales contienen la misma información!

Entonces, si su algoritmo mejora de alguna manera al usar ambos, probablemente no esté aprendiendo de la información real.

análisis de componentes principalesAprendizaje automáticoautomáticoCiencia de datos

¿Es útil la programación competitiva para aprender ciencia de datos, o es solo una pérdida de tiempo?

¿Qué herramientas y tecnologías de Bigdata, aprendizaje automático y PNL utiliza Quora?

¿Cuáles son algunas buenas áreas de investigación en minería de datos y análisis de datos?

Para un big data más reciente, ¿es un almacén de datos una mejor opción o no?

¿Qué tipo de métodos de ciencia de datos se pueden aplicar a los datos de tráfico web?

¿Cuánta programación debe saber alguien antes de entrar en Machine Learning y Data Science?

No es razonable agregar (creo que lo lograría por concatenación) el vector de características original a los vectores de características obtenidos después de PCA. Las razones de esto son dobles:

El propósito de PCA es realizar una correlación entre las dimensiones. Por lo tanto, las diferentes características del vector de características obtenidas después de PCA no están correlacionadas y cada dimensión aporta una característica específica (y probablemente interpretable) de los datos. Agregar las características originales aumenta la correlación entre las dimensiones.
La segunda razón para PCA es la reducción de dimensionalidad. Después de PCA, a menudo es suficiente retener las primeras k dimensiones clasificadas en términos de su varianza. Estas dimensiones se derivan de los datos subyacentes y retienen la mayor parte de la información importante contenida en los datos. Agregar las características adicionales no agrega ninguna información nueva. Por supuesto, los datos se asignarían ahora a un espacio de dimensiones superiores. Sin embargo, esto no serviría para aumentar el espacio entre dos vectores de características. Entonces, este aumento en la dimensionalidad es solo un ejercicio en vano.

En otras palabras, agregar las características originales a las características reducidas prácticamente elimina el punto de usar PCA en primer lugar. Nunca me he encontrado con una situación hasta ahora, donde tuve que incluir las características originales con las reducidas. Si observa que el algoritmo funciona mejor en un conjunto de características de este tipo, implica que el algoritmo está buscando una transformación diferente en el conjunto de características y no características no correlacionadas. En tales casos, trataría de usar una red neuronal donde se puedan aprender automáticamente diferentes transformaciones basadas en datos, que son óptimas para el algoritmo.

Shrikant Venkataramani

More Interesting

¿Qué debo hacer para convertirme en un científico de datos exitoso si soy de un entorno sin codificación?

¿Cómo se transfiere una persona trabajadora a tiempo completo a la ciencia de datos?

¿Qué tipo de conocimiento / experiencia se espera de alguien interesado en impulsar la maestría en ciencias de datos / análisis de negocios (y un programa de posgrado similar)?

¿Cómo debe un estudiante de CS sin experiencia obtener destreza en Machine Learning / Data Science?

¿Por qué necesitamos científicos de datos si tenemos aprendizaje automático que puede analizar y procesar datos?

¿Cómo se puede determinar si un conjunto de datos es grande o pequeño?

Cómo aprender ciencia de datos con comprensión práctica (incluida la certificación)

¿Qué es Big Data y cómo puede ser útil?

¿Cómo se relacionan los nombres de los archivos de extensión con los datos?

¿Por qué los datos toman espacio? ¿Hay alguna forma de comprimir todos los datos del mundo en 1 megabyte de espacio?