¿Las máquinas de vectores de soporte vienen en modelos paramétricos o no paramétricos y por qué?

El término “no paramétrico” puede sonar un poco confuso al principio: ¡no paramétrico no significa que NO tengan parámetros! Por el contrario, los modelos no paramétricos (pueden) se vuelven cada vez más complejos con una cantidad creciente de datos.

Entonces, en un modelo paramétrico, tenemos un número finito de parámetros, y en modelos no paramétricos, el número de parámetros es (potencialmente) infinito. O, en otras palabras, en modelos no paramétricos, la complejidad del modelo crece con el número de datos de entrenamiento; En los modelos paramétricos, tenemos un número fijo de parámetros (o una estructura fija si lo desea).

Los modelos lineales como la regresión lineal, la regresión logística y las máquinas de vectores de soporte lineales son ejemplos típicos de un “alumno” paramétrico; aquí, tenemos un tamaño fijo de parámetros (el coeficiente de peso). En contraste, K-vecino más cercano, árboles de decisión , o los SVM de kernel RBF se consideran algoritmos de aprendizaje no paramétricos, ya que el número de parámetros aumenta con el tamaño del conjunto de entrenamiento. – K-vecino más cercano y árboles de decisión, eso tiene sentido, pero ¿por qué un kernel RBF SVM no es paramétrico mientras que un SVM lineal es paramétrico? En el SVM del núcleo RBF, construimos la matriz del núcleo calculando las distancias por pares entre los puntos de entrenamiento, lo que lo hace no paramétrico.

En el campo de las estadísticas, el término paramétrico también se asocia con una distribución de probabilidad específica que “asume” que siguen sus datos, y esta distribución viene con el número finito de parámetros (por ejemplo, la media y la desviación estándar de una distribución normal) ; no hace / tiene estos supuestos en modelos no paramétricos. Entonces, en términos intuitivos, podemos pensar en un modelo no paramétrico como un modelo de “distribución” o (casi) sin suposición.

Sin embargo, tenga en cuenta que las definiciones de “paramétrico” y “no paramétrico” son “un poco ambiguas” en el mejor de los casos; de acuerdo con el “Manual de estadísticas no paramétricas 1 (1962) en la pág. 2: “Una definición precisa y universalmente aceptable del término ‘no paramétrico’ actualmente no está disponible. El punto de vista adoptado en este manual es que un procedimiento estadístico es de tipo no paramétrico si tiene propiedades que se satisfacen con una aproximación razonable cuando se mantienen algunas suposiciones que son al menos de naturaleza moderadamente general “.

La forma en que defino el modelo paramétrico y no paramétrico podría ser ambos. Los modelos paramétricos son algo con un número finito fijo de parámetros independientes del tamaño del conjunto de datos. Cualquier cosa que no sea modelo paramétrico es un modelo no paramétrico. También tiene que ver con el algoritmo que usa para aprender su modelo.
Si nos fijamos en el problema primario SVM lineal, tiene parámetros D + 1 (w, b) y, por lo tanto, puede verse como un modelo paramétrico.
Pero si observamos el problema dual, podría verse como un modelo no paramétrico y depende del tamaño del conjunto de datos. O incluso si considero solo variables duales distintas de cero, también puede crecer con la dificultad del problema y el límite superior en el número de variables crece con el tamaño del conjunto de datos.

Las SVM no son paramétricas. Un modelo paramétrico es aquel que puede darle la distribución de probabilidad de los datos en un número finito de parámetros. por ejemplo, la regresión logística es un modelo paramétrico, ya que le brinda la probabilidad de cada punto de datos en los parámetros (pesos de cada entidad). Los SVM, por el contrario, no tratan con ningún modelo probabilístico subyacente, no tienen una métrica para calcular la distancia desde el hiperplano ni se preocupan por la probabilidad de un punto de datos a una distancia dada del hiperplano. por lo tanto, son estrictamente libres de modelos, la cuestión de los parámetros ni siquiera surge ya que no hay un modelo probabilístico subyacente en primer lugar.