La variante de margen duro de SVM, que no trata con valores atípicos, es la siguiente:
[matemáticas] \ displaystyle \ min_w \ frac {1} {2} \ | w \ | ^ 2 [/ matemáticas]
S t
- ¿Qué es el "aprendizaje de refuerzo de múltiples agentes"?
- ¿Cuál es el alcance de AI / ML en la arquitectura de la computadora?
- Cómo encontrar el siguiente número de la lista de números anteriores usando el aprendizaje profundo
- Como aprender redes neuronales
- ¿Cuáles son los posibles remedios si está atascado en la comprensión de la parte técnica de un trabajo de investigación de STEM?
[matemáticas] y_i (w ^ Tx_i + b) \ geq 1 [/ matemáticas]
Es decir, desea encontrar el avión con el margen máximo de modo que cada punto de entrenamiento se clasifique correctamente con un margen de al menos 1. Esto claramente no maneja los valores atípicos, como se puede ver en el siguiente ejemplo:
Podemos obtener un hiperplano mucho mejor descuidando ese punto atípico rojo. Esto se maneja por extensión al margen suave:
[matemáticas] \ displaystyle \ min_w \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ xi_i [/ math]
S t
[matemáticas] y_i (w ^ T x_i + b) \ geq 1 – \ xi_i [/ matemáticas]
[matemáticas] \ xi_i \ geq 0 [/ matemáticas]
Es decir, se le permite tener algunos puntos clasificados incorrectamente o clasificados con un margen inferior a 1, pero por cada punto, paga un precio en la función objetivo, lo que le impide hacerlo con demasiada frecuencia. Controlar C equivale a controlar valores atípicos: una C baja implica que permitimos más valores atípicos, una C alta implica que permitimos menos valores atípicos.
En las ANN, generalmente no hay un manejo explícito de los valores atípicos. Esencialmente, no tiene restricciones que requieran que todas las etiquetas coincidan correctamente. Por lo general, minimiza alguna función de pérdida (como la pérdida euclidiana entre la etiqueta pronosticada y la etiqueta verdadera, o la pérdida de entropía cruzada) que es baja cuando los puntos se clasifican correctamente y alta cuando se clasifican incorrectamente. Por lo tanto, la red intenta automáticamente hacer coincidir tantas etiquetas como sea posible, y los valores atípicos tienen un efecto relativamente bajo en el entrenamiento. Esto es análogo al SVM de margen blando, donde cero [matemática] \ xi_i [/ matemática] corresponde al punto correctamente clasificado y alta [matemática] \ xi_i [/ matemática] corresponde a un punto clasificado incorrectamente.
El manejo de valores atípicos nuevamente se reduce a una regularización adecuada: si no permite modelos muy complejos, entonces la red solo puede adaptarse bien a la mayor parte de los datos y debe funcionar mal en los valores atípicos; Si permite modelos muy complejos, se ajustará tanto a la mayor parte de los datos como a los valores atípicos.
Fuente de la imagen: SVM: ¿márgenes duros o blandos?