Cómo entender el uso de un SVM con una red neuronal convolucional

Las máquinas de vectores de soporte son clasificadores binarios no probabilísticos. Lo que eso significa es que clasifican los objetos en dos secciones. O esto o aquello, se puede decir. El modelo desarrollado por el SVM crea una brecha de regresión o clasificación entre dos tipos diferentes de objetos utilizando los conjuntos de datos de entrenamiento. Cuando los datos de nuevos conjuntos de datos se pasan al SVM, clasificará los nuevos datos como pertenecientes a un lado de la brecha de clasificación o al otro.

En los diagramas anteriores, puede ver que la brecha de clasificación se crea mediante el hiperplano óptimo que divide los diferentes tipos de objetos en dos categorías. Eso es SVM.

Ahora la red neuronal convolucional (CNN) es un proceso de dos fases. Primero, las características de los datos de entrada se extraen usando filtros de convolución y luego sus dimensiones se reducen usando la agrupación Max. Estos filtros luego muestrearán las nuevas características extraídas hasta que se forme una capa de grupo completamente conectada. Una vez que se forma la red completamente conectada, se puede usar un perceptrón multicapa para clasificar los diferentes valores extraídos en el grupo de convolución. Este clasificador también puede ser un SVM como se discutió anteriormente en lugar de un Perceptrón de múltiples capas. Las características muestreadas se clasifican en diferentes categorías usando el clasificador y en este caso puede usar un SVM. Sin embargo, las características extraídas pueden pertenecer a múltiples categorías, en cuyo caso el uso de un SVM puede no ser muy eficiente. Por ejemplo, suponga que el conjunto de datos contiene 3 tipos diferentes de características. Ahora un SVM tomaría 2 tipos y clasificaría las características en dos grupos. Luego clasificaría los nuevos grupos en un tercer grupo. Pero, en lugar de un SVM, si usamos un Perceptrón multicapa, podemos clasificar rápidamente múltiples tipos de características, aumentando así la eficiencia del algoritmo.

Espero que esto responda a su pregunta.

Eche un vistazo a este documento – Página en deeplearning.net. Quitan la capa totalmente conectada en una red neuronal convolucional típica y en su lugar conectan un SVM lineal. La forma L2 de SVM permite la diferenciación y el resto de la propagación hacia atrás permanece igual a través de las capas convolucionales que se conectan a la capa SVM.

Otro método que podría comprender el uso de SVM en una red de comunicación es primero entrenar una red de comunicación de la forma habitual utilizando las capas completamente conectadas y luego la función softmax. Una vez que el convenet está completamente entrenado, las capas completamente conectadas se eliminan y luego las características extraídas por las capas convolucionales se introducen en la SVM para entrenar una clasificación binaria.

La red actúa como un extractor de características y el SVM clasifica según esas características.

¿Tenía preguntas sobre una parte específica del proceso?

More Interesting

Cómo ejecutar la regresión logística en SAS en los datos de una encuesta donde las variables dependientes e independientes son niveles de satisfacción (escala - 0 a 5)

¿Qué es una máquina de vectores de soporte?

¿Qué enfoques / regulaciones se utilizan para manejar el 'problema mínimo / máximo local' cuando se usa el descenso de gradiente con redes neuronales profundas?

¿Cuáles son algunas arquitecturas de redes neuronales?

Si alguien está haciendo una maestría en OMS CS de Georgia Tech, ¿cuál es la mejor especialización en términos de perspectivas (suponiendo el mismo nivel de interés en cada una), bases de datos e ingeniería de software, aprendizaje automático o inteligencia interactiva?

¿Cuál es la diferencia entre el aprendizaje de refuerzo profundo y el aprendizaje de refuerzo?

Cómo comenzar mi investigación sobre el aprendizaje por refuerzo si no soy bueno en Python

¿Cómo puede motivar a un estudiante de CS para que aprenda Machine Learning?

¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?

¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)

¿Es indistinguible si el método t-SNE no muestra dos grupos claros (para un problema de clasificación de 2 clases)?

Cómo ingresar a un programa de doctorado en la mejor escuela de EE. UU. En inteligencia artificial, visión artificial y aprendizaje automático

¿Tiene alguna implementación de clasificación de una clase utilizando la red neuronal?

Cómo aprender el aprendizaje automático desde el nivel cero

¿Cómo tratan SVM y ANN los valores atípicos?