Creo que los nombres son un poco ambiguos, ya que se podría hablar de L1-SVM o L1-norma SVM, lo mismo para el caso de L2. Creo que está preguntando acerca de las SVM de la norma L1 y la norma L2. Para estos algoritmos, se toma la norma L1 o L2 de los coeficientes ajustados, en muchos casos las personas llaman a este vector w (o quizás beta). La norma L2 SVM es muy popular para problemas de clasificación, especialmente para la clasificación de 2 clases. El SVM de la norma L1 tiene ventajas sobre el SVM de la norma L2 en espacios de características dimensionales muy altos. El SVM de la norma L1 a menudo aprenderá a ignorar las funciones redundantes y solo pondrá más peso en las funciones más importantes, permitiendo así una especie de selección automática de funciones.
En L1-SVM y L2-SVM: los dos tipos de SVM son muy similares desde la perspectiva del rendimiento de generalización y el tiempo de entrenamiento requerido. El objetivo de un L1-SVM contiene una suma lineal de las variables de holgura, mientras que el objetivo del L2-SVM contiene una suma de las variables de holgura al cuadrado al cuadrado. Debido a esta diferencia, también han tenido diferentes problemas duales. El doble problema para el L2-SVM resulta en un Hessian que es semi-definido positivo y, por lo tanto, la optimización para L2-SVM es más estable.
- ¿Es mejor utilizar algoritmos basados en reglas o de aprendizaje automático para la clasificación en un dominio de respuesta a preguntas cerrado?
- ¿Cuál es la diferencia entre Numpy y TensorFlow?
- Cómo elegir un optimizador para mi modelo de tensorflow
- Cómo calcular gradientes en una red neuronal de avance utilizando matrices
- ¿Cómo impacta la alta dimensionalidad en la efectividad del modelo?