Regularización: ¿Por qué se llaman así los SVM L1 y L2 cuando ambos miden la distancia a un hiperplano a lo largo de la proyección ortogonal?

Creo que los nombres son un poco ambiguos, ya que se podría hablar de L1-SVM o L1-norma SVM, lo mismo para el caso de L2. Creo que está preguntando acerca de las SVM de la norma L1 y la norma L2. Para estos algoritmos, se toma la norma L1 o L2 de los coeficientes ajustados, en muchos casos las personas llaman a este vector w (o quizás beta). La norma L2 SVM es muy popular para problemas de clasificación, especialmente para la clasificación de 2 clases. El SVM de la norma L1 tiene ventajas sobre el SVM de la norma L2 en espacios de características dimensionales muy altos. El SVM de la norma L1 a menudo aprenderá a ignorar las funciones redundantes y solo pondrá más peso en las funciones más importantes, permitiendo así una especie de selección automática de funciones.

En L1-SVM y L2-SVM: los dos tipos de SVM son muy similares desde la perspectiva del rendimiento de generalización y el tiempo de entrenamiento requerido. El objetivo de un L1-SVM contiene una suma lineal de las variables de holgura, mientras que el objetivo del L2-SVM contiene una suma de las variables de holgura al cuadrado al cuadrado. Debido a esta diferencia, también han tenido diferentes problemas duales. El doble problema para el L2-SVM resulta en un Hessian que es semi-definido positivo y, por lo tanto, la optimización para L2-SVM es más estable.

More Interesting

¿Cómo deberíamos acelerar el procesamiento de datos del lenguaje R?

¿Cuáles son los temas sobre big data para hacer una tesis de maestría que excluye el aprendizaje automático?

¿Por qué la normalización media ayuda en el descenso del gradiente?

¿Habrá una demanda de aceleradores de hardware para algoritmos de aprendizaje automático en el futuro cercano?

¿Cuáles son los temas más comunes omitidos de los cursos de aprendizaje automático?

¿Cuál es el producto de reconocimiento de voz más utilizado?

¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

Data Science, Big Data, Machine Learning, ¿qué certificación debo hacer para cambiar la trayectoria profesional desde un entorno de control de calidad?

¿Cuáles son ejemplos cuando es útil generar muestras a partir de un modelo probabilístico?

¿Qué es la indexación semántica latente?

¿Me puede recomendar algunos buenos libros, blogs, artículos y documentos dedicados a conjuntos de modelos y especialmente apilamiento de modelos, también conocidos como conjuntos de modelos híbridos?

¿Cómo se puede aplicar el aprendizaje automático al póker?

¿Deberíamos comenzar con Tensorflow, Keras o Sonnet para desarrollar un sistema de predicción de datos de series temporales? ¿Debemos usar solo lenguajes basados ​​en Python?

¿Cuándo veremos una base teórica y una base matemática para el aprendizaje profundo?

Cómo garantizar que la función SIFT sea invariante en perspectiva