¿Por qué decimos que la máquina de vectores de soporte y muchas otras técnicas de aprendizaje automático tienen un supuesto subyacente de iid?

Hay al menos tres formas de ver la formulación de SVM. Uno es completamente geométrico y no tiene una intuición probabilística adjunta. Mire este pdf [1] para conocer la forma geométrica de formular SVM. Sin embargo, hay dos formas más de derivar la formulación SVM.

Una es mostrar que para la clase de hipótesis lineal parametrizada por [math] w [/ math], el riesgo empírico está limitado por [math] \ | w \ | [/ math], lo que lleva a la conclusión de que minimizar [math] ] \ | w \ | [/ math] minimiza el límite superior del riesgo empírico (que es esencialmente SVM). Este límite de riesgo empírico es un límite probabilístico y requiere su suposición en los datos.

La segunda forma es mostrar que SVM es en realidad una estimación de máxima probabilidad de un modelo probabilístico subyacente [2, ICML 2011]. Nuevamente, el modelo probabilístico hace la suposición iid en los datos para obtener la estimación de máxima verosimilitud.

La forma geométrica de derivar SVM, si bien es la más simple de entender, tampoco nos permite comprender el impacto de la distribución de los datos de entrenamiento en el aprendizaje de SVM, mientras que a partir de [2], un impacto inmediato que vemos es cómo es SVM en realidad asumiendo uniforme antes sobre las etiquetas.

¿Es [2] la forma final de ver SVM? Espero que no. Estoy bastante seguro de que a medida que avanza la investigación, podemos llegar a ver SVM de múltiples maneras diferentes que expondrán otras diversas suposiciones ocultas en el modelo, que los profesionales han estado observando al aplicar SVM a conjuntos de datos reales.

[1] Página en mit.edu
[2] Página en felk.cvut.cz

Related Content

¿Los métodos del núcleo siguen siendo relevantes hoy en día?

¿Cómo le enseñas a un robot que ha cometido un error?

¿Qué quiere decir con redes neuronales lineales profundas / no lineales?

¿Cuáles son algunas de las funciones de uso común que se pueden extraer de la música con fines de aprendizaje automático?

Entre la agrupación y la clasificación, ¿cuál requiere más experiencia?

¿Qué áreas debo conocer bien para ser un buen ingeniero de visión por computadora?

¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?

Además de lo descrito por el usuario anónimo anterior, me gustaría agregar mis hallazgos en mi investigación reciente:

Encontré un documento que explica por qué la máquina de vectores de soporte también es coherente con los datos dependientes . El documento se llama “Aprender de las observaciones dependientes” (página en arxiv.org).

Si está interesado, hay una derivación más elaborada del resultado proporcionado en una tesis de maestría: Página en stat.ethz.ch

Ambos documentos son muy técnicos, de modo que tengo problemas para comprender las condiciones para delinear, cuando se nos permite usar la máquina de vectores de soporte en datos dependientes.

Peter Thesling

More Interesting

¿Es necesario ajustar manualmente la tasa de aprendizaje cuando uso el método de descenso de gradiente estocástico de Adam en la práctica?

¿Es bueno hacer un muestreo estratificado para la regresión cuando se le da con grandes conjuntos de datos?

¿Cómo funciona Google Deep Dream?

Cómo encontrar grupos en estos datos

¿Cuáles son las diferencias entre los métodos de análisis de componentes principales?

El aprendizaje profundo hará que los humanos sean innecesarios para qué trabajos.

Redes neuronales artificiales: ¿Qué determina si un problema de clasificación no trivial para el aprendizaje profundo se puede dividir en capas convolucionales en lugar de capas completamente conectadas?

¿Cómo se puede utilizar la inteligencia artificial y el aprendizaje automático en el comercio y la inversión?

¿Cuántas imágenes necesito para entrenar una red neuronal convolucional?

¿Cómo podría el aprendizaje automático mejorar la nariz electrónica?

¿Qué algoritmo usar en la clasificación de la cobertura del suelo?

¿Cuál es la diferencia entre el aprendizaje probabilístico y el aprendizaje no probabilístico para diferentes situaciones? ¿Cuándo es uno más apropiado que el otro?

¿Alguna vez usamos la estimación de máxima verosimilitud?

Cómo entrenar Word2Vec en un conjunto de datos personalizado

Cómo aumentar la precisión utilizando redes neuronales convolucionales (CNN / ConvNets) para la regresión

Web Analytics