¿Cómo funciona realmente el Detector MultiBox Single-Shot (SSD)?

La imagen de arriba, tomada del documento, ilustra cómo funciona SSD. SSD hace coincidir objetos con cuadros predeterminados de diferentes aspectos (mostrados como rectángulos discontinuos en la imagen). Cada elemento del mapa de características tiene varios cuadros predeterminados asociados. Cualquier casilla predeterminada con un IOU de 0.5 o mayor con una casilla de verdad básica se considera una coincidencia. Dos de los cuadros de 8 × 8 se corresponden con el gato (se muestra en azul), y uno de los cuadros de 4 × 4 se corresponde con el perro (se muestra en rojo). Es importante tener en cuenta que los cuadros en el mapa de características 8 × 8 son más pequeños que los del mapa de características 4 × 4: SSD tiene seis mapas de características en total, cada uno responsable de una escala diferente de objetos, lo que le permite identificar objetos a través de Una amplia gama de escalas.

Para cada cuadro predeterminado en cada celda, la red genera:

  • Un vector de probabilidad de longitud c, donde c es el número de clases, que representa las probabilidades del cuadro que contiene un objeto de cada clase (incluida una clase de fondo que indica que no hay ningún objeto en el cuadro).
  • Un vector de desplazamiento con 4 entradas que contiene los desplazamientos previstos necesarios para que el cuadro predeterminado coincida con el cuadro delimitador del objeto subyacente. Se dan en el formato (cx, cy, w, h): centro x, centro y, y compensaciones de ancho y alto, y solo tienen sentido si en realidad hay un objeto contenido en el cuadro predeterminado.

En el caso de la imagen de arriba, todas las etiquetas de probabilidad indicarían la clase de fondo con excepción de los tres cuadros coincidentes (dos para el gato, uno para el perro).

* foto tomada del artículo original

más aquí: cómo construimos y capacitamos un detector de unidades múltiples de SSD en Tensorflow

More Interesting

¿Cómo calcular la precisión y recuperación generales? ¿Obtengo la precisión y la recuperación de cada clase y obtengo el promedio

¿Qué método de aprendizaje profundo es el más adecuado para PNL?

¿Qué es una explicación intuitiva de DBSCAN?

Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?

¿Cuántos documentos son suficientes para estudiar para escribir una encuesta sobre aprendizaje profundo?

¿Cuál es la diferencia entre un conjunto de entrenamiento y un conjunto de prueba?

¿Está bien usar software como scikit learn, tensorflow, keras y desarrollar aplicaciones sin profundizar en los conceptos matemáticos?

¿Dónde usa Quora el aprendizaje automático?

¿Cuál es una explicación intuitiva de las expectativas de la correlación Radamacher?

La minería de datos es una versión más fuerte de ajuste de curvas, ¿es correcta?

¿Qué tipo de aumento de datos se puede usar para imágenes médicas?

Cómo implementar Inteligencia Artificial en un Proyecto Arduino

¿Las GPU seguirán dominando la inteligencia artificial y el aprendizaje automático, aumentando el valor de compañías como Nvidia y AMD, o los chips especializados como los de Graphcore se harán cargo?

¿Debemos usar el ajuste fino en redes neuronales profundas? La precisión de la clasificación es del 100%, pero después de un ajuste fino, se convierte en el 95.7%, ¿cómo llega esto?