¡Buena pregunta!
Creo que el blanqueamiento no puede mejorar la generalización del clasificador SVM. Considere la definición de blanqueamiento:
Definición: La matriz W, es una matriz de blanqueamiento en la siguiente transformación lineal:
[matemáticas] u = Wx [/ matemáticas]
cuando la matriz de covarianza del vector de salida, u, satisface:
[matemáticas] = I [/ matemáticas]
donde I representa la matriz de identidad y representa el operador de expectativa.
El objetivo es encontrar una respuesta (W) .
Se puede obtener una solución usando PCA: (la solución no es única. Por lo tanto, se puede encontrar por otro método).
[matemáticas] W = D ^ {- \ frac {1} {2}} E ^ T [/ matemáticas]
por lo tanto, el blanqueamiento de esta manera relaciona los datos sin reducir la dimensión. Puede ser adecuado para clasificadores como Naive Bayes que se basa en esta suposición (suposición en Naive Bayes: características independientes)
pero no puede ser una buena opción en clasificadores que de alguna manera pueden modelar la correlación de los datos. SVM no modela la correlación en los datos explícitamente, pero predice en base a la similitud de la muestra de prueba con los vectores de soporte (usando el producto interno). se puede considerar el tipo de correlación del producto interno.
este es solo mi pensamiento, y no estoy seguro de que sea correcto. Pero en el siguiente documento que encontré en mi búsqueda sobre este tema, veo que el blanqueamiento hace algo malo en el rendimiento de SVM.
Kocsor, András, Róber Busa-Fekete y András Bánhalmi. “Transformaciones espaciales de características basadas en blanqueamiento en un sistema de terapia de impedimento del habla”. En Texto, discurso y diálogo , págs. 222-229. Springer Berlin Heidelberg, 2007.
¿Realizar el blanqueamiento de datos antes del entrenamiento mejora la capacidad de generalización de un SVM?
Es una buena idea escalar sus datos antes de alimentarlos a un SVM, y el blanqueamiento es una forma inteligente de escalar los datos.
Blanqueo mis datos tan a menudo como puedo. Dada la información suficiente, puede que no importe mucho, pero cuando se trata de un entrenamiento rápido , la inteligencia es su única arma y el blanqueamiento es una buena estrategia cuando comienza.
More Interesting
¿Qué son los hiperparámetros en el aprendizaje automático?
¿Es útil entrenar a AlphaGo jugando contra sí mismo?
¿Qué hace que los parámetros del modelo sean variables latentes?
¿Por qué Microsoft decidió usar bosques aleatorios en el Kinect?
¿Cuáles son los sitios web que debe visitar un amante del diseño de máquinas?
¿Cuáles son los mayores desafíos en la enseñanza del aprendizaje automático?
¿Cómo se usa SVM y cómo se implementa mejor?
¿Cuál es la divergencia KL entre un Gaussiano y un Student-t?
¿Qué hace el -1 en la siguiente línea del código TensorFlow x_image = tf.reshape (x, [-1,28,28,1])?