Por lo general, tratamos de entender un sistema a través de varias cantidades de medición. La mayoría de las veces, no sabemos sobre el sistema y su dinámica debido a las siguientes razones (i) El sistema en sí mismo es tan complejo (ii) El experimentador no entendió bien el sistema. Por lo tanto, los datos recopilados del sistema son ruidosos y redundantes. El redundante significa que una característica en particular podría haber capturado cierta información y, al mismo tiempo, podríamos haber elegido otra característica que capture la misma información parcial o totalmente. (Características correlacionadas)
Ejemplo:
- ¿Un pequeño porcentaje de datos incorrectos (digamos entre 1% y 5%) en el conjunto de datos de entrenamiento impacta significativamente la efectividad del entrenamiento de una red neuronal?
- ¿Cómo podemos hacer que las redes profundas funcionen de manera eficiente en dispositivos de baja potencia (por ejemplo, teléfonos)?
- ¿Cómo deberíamos acelerar el procesamiento de datos del lenguaje R?
- ¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?
- ¿Cuáles son los trabajos mejor pagados en el aprendizaje automático y qué habilidades requiere?
Hay tantos círculos en la figura anterior. Un experimentador intenta representar todos los círculos en términos de características. Ha elegido dos características para representar cada círculo (es decir, perímetro y área del círculo). Suponga que ha elegido una forma de medir ambas características (sin usar fórmula). A veces, comete un error al medir esas características (error sistemático). Esta es una de las razones por las cuales los datos son ruidosos.
De la figura anterior, podemos ver que ambas características están correlacionadas. Entre esas dos características, cualquier característica puede servir al propósito. Una característica, el radio de un círculo en sí mismo es más que suficiente para distinguir cada círculo (tanto las características del perímetro como las del área son solo función del radio). Esto se conoce como redundancia.
PCA convierte características correlacionadas en características ortogonales. (es decir, cada función proporciona información única sobre los datos. No hay dos funciones que no tengan ninguna información común sobre los datos ([matemática] \ sigma_ {xy} = \ sigma_ {yx} = 0 [/ matemática]). ventajas de usar características ortogonales sobre características correlacionadas. Algunas de ellas son
- Podemos visualizar el conjunto de datos complejos en un espacio dimensional inferior (Biplot)
- Podemos eliminar las funciones redundantes. Por lo tanto, podemos reducir el espacio de características original a un espacio dimensional más bajo que reduce en gran medida los recursos computacionales.
- Podemos usarlo como técnica de selección de características.