¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?

Tengo que estar de acuerdo con Benoit. La clasificación de escenas, ya sean 15 o 100 categorías, es más fácil que la detección y los investigadores se han salido con la suya con enfoques generativos para tales problemas de clasificación de escenas.

Considere el problema de detectar perros en imágenes genéricas. No solo debe lidiar con la gran variación intra-clase de los perros, sino que debe lidiar con el espacio extremadamente grande de los no perros. Para problemas de detección, la receta que funciona bastante bien es un descriptor de alta dimensión, MUCHOS datos y un límite de decisión simple. La optimización agresiva de la frontera entre los perros y los no perros será mucho más productiva que un simple modelo generativo, lo que podría suponer una ridícula suposición de que todos los parches de imágenes que no son perros (es decir, todo en el mundo visual menos perros) pueden ser modelado por una distribución gaussiana.

Related Content

Si una red de alimentación directa de una sola capa es capaz de aproximarse a cualquier grado de precisión, ¿por qué es exitoso el aprendizaje profundo?

¿Qué métodos / códigos están disponibles para estudiar un corpus que consiste en correos electrónicos?

¿Por qué la regresión logística se considera un modelo lineal?

¿Qué es una explicación intuitiva de la convolución 1 × 1 en ConvNets?

Además del aprendizaje profundo, ¿qué otras herramientas de extracción de funciones están funcionando o son prometedoras para el aprendizaje automático?

¿Cuáles son algunos proyectos interesantes de minería de texto en análisis político?

¿Es necesario aprender matemáticas discretas antes de comenzar a aprender la estructura de datos y el algoritmo? ¿Y cuál será el mejor libro para hacer lo mismo?

Los modelos generativos, como el análisis discriminante gaussiano, asumen cierta distribución sobre los datos y luego modelan las clases, finalmente comparan los nuevos datos con todos los modelos y etiquetan los nuevos datos con la clase más probable.

Sin embargo, resulta que cualquier distribución que los datos puedan tener, Poisson o Gaussian o cualquier otra distribución de la familia exponencial, la posterior, es decir, P (y = 1 | x) resulta ser logística (es decir, sigmoidal).

Sin embargo, lo contrario no es cierto, es decir, asumir que la logística en la parte posterior no significa que sus datos se distribuirán como un gaussiano.

Por lo tanto, el enfoque discriminatorio es un enfoque seguro, ya que cubre a toda la familia exponencial y uno no tiene que preocuparse por cómo se distribuyen los datos. (Aunque se necesita un poco más de datos para entrenar)

Sricharan Sunder

Creo que se reduce a la dificultad del problema. Clasificar una imagen completa en un número limitado de clases es mucho más fácil que detectar / reconocer objetos que pueden pertenecer a cientos o miles de clases, en ubicaciones y escalas desconocidas.

Entonces, para la clasificación de escenas, uno puede salirse con la suya con un modelo estadístico de cada clase, pero para el problema de reconocimiento de objetos más difícil, uno tiene que optimizar activamente los límites de decisión.

Por cierto, incluso los modelos generativos pueden entrenarse de manera discriminatoria para mejorar la precisión de la clasificación, por lo que creo que es puramente una cuestión de dificultad / precisión.

Sricharan Sunder

More Interesting

Cómo utilizar una GPU en mis algoritmos de aprendizaje automático de R

El lenguaje de máquina se ha mencionado en todas partes. ¿Qué es en realidad?

¿Alguien ha encontrado un análisis matemáticamente riguroso de la unidad LSTM?

En finanzas cuantitativas, ¿hay alguna analogía entre la optimización de la cartera y el análisis de componentes principales?

¿Se puede utilizar la investigación en aprendizaje automático para complementar la epistemología?

¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Por qué confiamos en la aleatoriedad de la búsqueda aleatoria en la optimización de hiperparámetros?

¿Cómo utiliza Facebook feed el aprendizaje profundo?

¿Cuál es una mejor opción para que un graduado de negocios aprenda en términos de su carrera, ciencia de datos o aprendizaje automático?

¿Debo saber Python y R para aprender Machine Learning?

¿Qué es la perplejidad en el análisis bayesiano?

¿Qué es lo que más te gusta del aprendizaje automático?

¿Es posible compilar una función NumPy para TensorFlow como PyAutoDiff para Theano?

¿Qué es un método de kernel en el contexto del aprendizaje automático?

Web Analytics