Tengo que estar de acuerdo con Benoit. La clasificación de escenas, ya sean 15 o 100 categorías, es más fácil que la detección y los investigadores se han salido con la suya con enfoques generativos para tales problemas de clasificación de escenas.
Considere el problema de detectar perros en imágenes genéricas. No solo debe lidiar con la gran variación intra-clase de los perros, sino que debe lidiar con el espacio extremadamente grande de los no perros. Para problemas de detección, la receta que funciona bastante bien es un descriptor de alta dimensión, MUCHOS datos y un límite de decisión simple. La optimización agresiva de la frontera entre los perros y los no perros será mucho más productiva que un simple modelo generativo, lo que podría suponer una ridícula suposición de que todos los parches de imágenes que no son perros (es decir, todo en el mundo visual menos perros) pueden ser modelado por una distribución gaussiana.
- ¿Cómo puede una red neuronal ser capaz de razonamiento simbólico? ¿Cómo puede unir variables?
- ¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?
- ¿El error de clasificación de las redes neuronales se denomina "tasa de error"?
- ¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?
- ¿Cuál es la mejor manera de aprender la programación CUDA C para implementar nuevas ideas de aprendizaje profundo?