¿SSD es realmente mejor que YOLO?

No hay nada injusto en eso. Puede apilar más capas al final de VGG, y si su nueva red es mejor, puede informar que es mejor. Mientras no fabriques resultados en tus experimentos, todo es justo.

YOLO está limitado porque su relación de aspecto de celdas de cuadrícula predefinida es fija. SSD arregló eso al permitir más relaciones de aspecto (6 en total). Debido a esto, las cajas SSD pueden envolver los objetos de una manera más ajustada y precisa. Otra mejora es que SSD agrega más capas convolucionales después de VGG para la detección (como también dijo), en lugar de usar 2 capas completamente conectadas como YOLO. Esto ayuda a la red a detectar mejor los objetos en múltiples escalas.

De todos modos, puede aumentar la entrada de ambas redes a la cantidad que desee. Terminaron de experimentar con SSD 500 × 500, produjo una precisión aún mayor pero es más lenta que SSD300.