¿Qué es una explicación intuitiva de lo que es la dimensión VC?

Entonces, tienes un clasificador binario que denotaré [math] \ mathcal {F} [/ math]. La dimensión VC de [math] \ mathcal {F} [/ math] es el mayor número de puntos distintos, colocados en las posiciones que elija, de modo que cada posible etiquetado de los puntos pueda clasificarse de manera factible con cero errores de entrenamiento.

La dimensión VC es, por lo tanto, un método para describir cuán complejo es un modelo. Un mayor número de puntos distintos crea más combinaciones de etiquetado y, por lo tanto, prueba un mayor número de límites de decisión potenciales. Clasificar correctamente todas las combinaciones de etiquetado (o romper el conjunto de puntos como se conoce formalmente) nos informa que el clasificador es capaz de formar todas estas configuraciones potenciales de límites de decisión.

Esto nos lleva al famoso teorema de VC:
Error de prueba [matemática] \ leq [/ matemática] Error de entrenamiento + [matemática] \ frac {1} {\ sqrt {n}} \ cdot \ sqrt {v \ log (2n / v) + v – \ log (\ delta / 4)} [/ matemáticas]
con probabilidad 1 – [matemática] \ delta [/ matemática], donde v es la complejidad de VC, n el tamaño de la muestra.

La interpretación aquí es solo el equilibrio de sesgo-varianza estándar. Si tiene un modelo más complejo, es decir, una mayor complejidad de VC, entonces espera que tenga más variación. El error de prueba es análogo al riesgo del modelo, el error de entrenamiento es análogo al sesgo del modelo y la varianza está relacionada con la dimensión VC.


Para comprender realmente la complejidad de VC necesita hacer algunos ejercicios. En realidad hay mucha sutileza. Recomiendo tratar de:

  • Demuestre que si K es el número entero más pequeño de modo que ningún clasificador pueda romper los arreglos de los puntos K, entonces K-1 es la dimensión VC. Esta no es una reformulación trivial de la definición.
  • Encuentre y pruebe la dimensión VC de un clasificador lineal en 2 dimensiones.
  • Demuestre que el vecino 1 más cercano tiene una dimensión de VC infinita.


También tenga en cuenta que la dimensión VC es solo una forma de caracterizar la complejidad de un modelo y no siempre hace un buen trabajo, por ejemplo 1-NN. Algunos otros métodos:

  • Grados de libertad (estadísticas)
  • Complejidad de Rademacher

La dimensión VC es la medida de cuán complejo es un clasificador. La dimensión de VC grande muestra que el clasificador es más complejo y viceversa. Considere un dato con tres instancias (por ejemplo, la figura 1 (a) que se muestra a continuación con dos círculos vacíos etiquetados como +1 y un círculo relleno etiquetado como -1). La figura 1 (a) – (h) muestra todos los etiquetados posibles.

Con la noción de ancho de clasificador, definimos la dimensión VC. La figura 2 muestra una clase de clasificadores con un ancho de [math] \ gamma_1 [/ math] que separa todas las instancias +1 y -1, para todos los posibles etiquetados. En este caso, la dimensión VC es 3, igual que el número de instancias de datos. Decimos que la clase de clasificadores destruye el conjunto de datos. La figura 2 no muestra las (g) y (h) de la figura 1, que tiene las mismas etiquetas. En la Fig.3, donde la clase de clasificadores con ancho [math] \ gamma_2 [/ math] que es mayor que [math] \ gamma_1 [/ math] no pudo separar todos los locos (ver puntos con flechas rojas fig.3 (a )(re)). Supongamos que si eliminamos el punto de flecha roja del conjunto de datos, entonces el clasificador con ancho [math] \ gamma_2 [/ math] puede destruir el subconjunto (dos puntos) de datos. Entonces, para la clase de clasificadores en la Fig.3, la dimensión VC es 2.

intuitivamente, en este caso, el primer conjunto de clasificadores con VC dim 3 es más complejo que el segundo caso con VC dimensión 2. El ejemplo que se muestra arriba es para el clasificador lineal. Para la clase de clasificadores no lineales, la dimensión VC depende no solo del ancho del margen sino también de la constante de costo y el tipo de núcleo utilizado.

Fuente: Descubrimiento del conocimiento con máquina de vectores de soporte por Lutz Hamel.

Para un cierto algoritmo, la dimensión VC es el número de puntos que pueden romperse. Si la dimensión VC es n , no importa qué n puntos se nos den (con sus clases correspondientes), siempre podemos aprender a clasificarlos con una precisión del 100% (tenga en cuenta que este porcentaje se refiere al rendimiento del entrenamiento, no al rendimiento de la prueba).

http://en.wikipedia.org/wiki/VC_ … hace un buen trabajo si quieres más detalles.

More Interesting

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

Cómo construir una aplicación de predicción de flujo de efectivo personal con extractos bancarios utilizando el aprendizaje automático

¿Qué son las vigas reforzadas sobrerreforzadas, subreforzadas y equilibradas?

¿Cuál es la diferencia entre extracción de información y recuperación de información?

¿Cuáles son las ventajas y desventajas de utilizar una combinación de impulso + árboles de decisión frente a algún otro enfoque en un problema de clasificación?

¿Puede el aprendizaje automático desarrollar el gusto?

¿Existe una brecha entre las estadísticas y las comunidades de aprendizaje automático? Si es así, ¿por qué?

¿Hay algún curso sobre blockchain, Python o aprendizaje automático durante un máximo de 6 meses en el extranjero que también pueda conseguirme un trabajo allí?

¿Cómo debo comenzar a escribir una IA que jugará FIFA?

¿Cómo puedo aprender ciencia de datos?

¿Por qué un niño de 6 años puede realizar tareas de reconocimiento de objetos mejor que una red neuronal distribuida a gran escala con decenas de miles de núcleos de CPU, pero incluso un cerebro adulto no puede competir con un procesador anticuado cuando se trata de cálculos de procedimientos? ¿Qué falta en nuestro procesador?

¿Los analistas de datos serán reemplazados por aprendizaje automático e inteligencia artificial pronto?

¿Cuál es una metodología sólida para abordar un problema de regresión?

¿Puede el aprendizaje automático ayudar con la ciencia del clima?

¿Qué significa el valor propio de un hessiano en el aprendizaje automático?