¿Cómo funciona el soporte de regresión vectorial?

SVM utiliza un objetivo de optimización diferente en comparación con los utilizados en regresión logística / lineal o redes neuronales. Hay varias propiedades asociadas con esta función de costo que proporciona una buena solución con cálculos menores. La función de costo implica el uso de un núcleo, que podría ser lineal / gaussiano / polinómico según su elección. El núcleo determina cuán similares son las diferentes características entre sí y, por lo tanto, imparte ponderaciones a sus correspondientes funciones de costo. Por lo tanto, las características que están cerca una de la otra y tienen el mismo resultado se agruparán debido a un mayor peso, mientras que los valores atípicos tendrán menos peso asociado y quedarán fuera cuando intentemos minimizar nuestro objetivo de optimización para la clasificación. Pensando en la regresión, los efectos de estos pesos son similares. Los valores atípicos contribuirán muy poco a su modelo final.

Creo que estas conferencias sobre Coursera cubren el tema bastante bien
(Estoy aprendiendo ML ahora mismo en Coursera, así que puedes considerarme un laico por el momento 🙂). Miré más hacia arriba y encontré los documentos relevantes. Considérelos para lectura adicional, pero primero debería ver las conferencias.

Conferencias de video:
Objetivo de optimización
Intuición de gran margen
Matemáticas detrás de la clasificación de margen grande (opcional)
Kernels I
Kernels II
Usando un SVM
Diapositivas:
Página en Cloudfront

Lectura adicional:
Página en Microsoft
Página sobre Smola

EDITAR:
200a respuesta, ¡guau!

EDICIÓN PRINCIPAL:
Debe consultar estas notas. En mi opinión, son lo mejor que le puede pasar a un aprendiz de máquina principiante. Léelo Simplemente hazlo. Notas de aprendizaje automático : ¡las mejores notas de todos los tiempos!

SVM para la regresión estima los coeficientes de ecuación minimizando la función de costos [matemática] C \ cdot \ sum_ {i = 1} ^ {n} L _ {\ epsilon} (y_i – \ hat {y} _i) + \ sum_ {j = 1 } ^ {P} \ beta_j ^ {2} [/ math], donde

  1. [matemática] L _ {\ epsilon} [/ matemática] es [matemática] {\ epsilon} [/ matemática] función de pérdida insensible
  2. [matemáticas] C [/ matemáticas] es la penalización de costos
  3. [matemática] \ sum_ {j = 1} ^ {P} \ beta_j ^ {2} [/ matemática] es la penalización por evitar el sobreajuste.

Con la función de pérdida insensible [matemática] {\ epsilon} [/ matemática], solo se considera el costo de las muestras que tienen residuos mayores que [matemática] \ epsilón [/ matemática], mientras que las muestras con residuos más pequeños no tienen efecto en la regresión ecuación.

Consulte Regresión de vectores de soporte (SVR) utilizando núcleos lineales y no lineales para tener una idea detallada de cómo funciona.

More Interesting

¿Cuáles son los principales niveles de clasificación de reclusos?

¿Deberíamos comenzar con Tensorflow, Keras o Sonnet para desarrollar un sistema de predicción de datos de series temporales? ¿Debemos usar solo lenguajes basados ​​en Python?

¿Qué tan 'neurales' son las redes neuronales?

¿Qué opinas sobre la inteligencia artificial? ¿Vale la pena desarrollarla?

¿Cuál sería la arquitectura más apropiada para entrenar una red neuronal basada en dos imágenes de entrada?

Cómo comparar el rendimiento de mis modelos de Deep Learning con puntos de referencia estándar cuando se utiliza el aumento de conjunto de datos

En el aprendizaje automático, ¿cómo estima el descenso de gradiente la pendiente de la función de pérdida en un punto dado?

¿Cuál es el método para encontrar la parte no reconocida de los resultados del aprendizaje automático y complementarla para alcanzar el 100%?

Cómo hacer un bot que pueda ser entrenado para jugar juegos simples usando Python

¿Qué tan importante fue el Premio Netflix para el área de Sistemas de recomendación?

Tengo un conjunto de datos con 14 características. Quiero aplicar SVM en él usando R. ¿Cómo puedo?

¿Qué es el algoritmo de agrupación de Markov?

¿Cómo se determina la significación estadística para las curvas ROC y los valores de AUC?

Aparte del aprendizaje automático, ¿cuáles son algunos campos de la informática que requieren conocimientos matemáticos?

¿Cuáles son las mejores empresas de minería de datos?