¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?

Tengo que estar de acuerdo con Benoit. La clasificación de escenas, ya sean 15 o 100 categorías, es más fácil que la detección y los investigadores se han salido con la suya con enfoques generativos para tales problemas de clasificación de escenas.

Considere el problema de detectar perros en imágenes genéricas. No solo debe lidiar con la gran variación intra-clase de los perros, sino que debe lidiar con el espacio extremadamente grande de los no perros. Para problemas de detección, la receta que funciona bastante bien es un descriptor de alta dimensión, MUCHOS datos y un límite de decisión simple. La optimización agresiva de la frontera entre los perros y los no perros será mucho más productiva que un simple modelo generativo, lo que podría suponer una ridícula suposición de que todos los parches de imágenes que no son perros (es decir, todo en el mundo visual menos perros) pueden ser modelado por una distribución gaussiana.

Los modelos generativos, como el análisis discriminante gaussiano, asumen cierta distribución sobre los datos y luego modelan las clases, finalmente comparan los nuevos datos con todos los modelos y etiquetan los nuevos datos con la clase más probable.

Sin embargo, resulta que cualquier distribución que los datos puedan tener, Poisson o Gaussian o cualquier otra distribución de la familia exponencial, la posterior, es decir, P (y = 1 | x) resulta ser logística (es decir, sigmoidal).

Sin embargo, lo contrario no es cierto, es decir, asumir que la logística en la parte posterior no significa que sus datos se distribuirán como un gaussiano.

Por lo tanto, el enfoque discriminatorio es un enfoque seguro, ya que cubre a toda la familia exponencial y uno no tiene que preocuparse por cómo se distribuyen los datos. (Aunque se necesita un poco más de datos para entrenar)

Creo que se reduce a la dificultad del problema. Clasificar una imagen completa en un número limitado de clases es mucho más fácil que detectar / reconocer objetos que pueden pertenecer a cientos o miles de clases, en ubicaciones y escalas desconocidas.

Entonces, para la clasificación de escenas, uno puede salirse con la suya con un modelo estadístico de cada clase, pero para el problema de reconocimiento de objetos más difícil, uno tiene que optimizar activamente los límites de decisión.

Por cierto, incluso los modelos generativos pueden entrenarse de manera discriminatoria para mejorar la precisión de la clasificación, por lo que creo que es puramente una cuestión de dificultad / precisión.