Cómo crear una representación jerárquica de un conjunto de objetos usando una red neuronal

Los grandes conjuntos de datos con regiones espaciales asociadas con roles jerárquicos, por ejemplo, este píxel es {radio, rueda, automóvil}, realmente no existen, por lo que no hay mucho trabajo basado en el aprendizaje supervisado para tales tareas. Si le preguntas a un motor de búsqueda en lugar de quora, verás algunos trabajos sobre problemas similares que surgen de ellos desde un punto de vista de minería de datos, pero, francamente, no soy un fanático de este trabajo. Tienden a involucrar modelos con hipótesis bastante específicas sobre cómo representar la partición recursiva de objetos, y estos modelos son a la vez ad-hoc y mediocres en la justificación experimental. Tome esto por lo que vale, obviamente no he leído todo en el mundo y estoy escribiendo esto en un momento específico y tal vez mañana salga algo genial.

El único artículo relacionado con su pregunta que disfruté es Detectores de objetos emergentes en CNN de escena profunda. Muestra que si entrena modelos de redes neuronales para clasificar escenas, por ejemplo, si se trata de un baño o un jardín, resulta que algunas neuronas tendrán altas respuestas debido a la presencia de clases de objetos específicos. Además de ser un hallazgo interesante cuando se ve de forma aislada, creo que este estilo de trabajo está más en el camino correcto porque una interpretación jerárquica particular de una escena debería ser consecuencia de una tarea o una perspectiva de un agente en particular. Por ejemplo, un mecánico que mira un motor verá una estructura muy rica y un conductor común solo necesita ver un binario “¿esto se ve bien o debería llevarlo a un mecánico?”.

More Interesting

¿Qué significa la siguiente declaración: las redes neuronales son generalmente paramétricas y optimizadas para producir una estimación puntual?

¿Cuáles son las relaciones entre el aprendizaje automático, el aprendizaje profundo, el aprendizaje supervisado y el aprendizaje no supervisado?

¿Hay grupos de investigación trabajando en aprendizaje profundo teórico?

Cómo verificar si el objeto de una imagen existe en otra imagen

¿Cuál es la diferencia de enfoque para resolver un desafío de Kaggle y trabajar en un problema de investigación de LA bien definido?

¿Cómo tratan SVM y ANN los valores atípicos?

¿Cómo reconoce la red neuronal convolucional los objetos de las imágenes sin la percepción o reconocimiento 3D?

¿Cuál es la relación entre el modelo Log Linear, el modelo MaxEnt y la regresión logística?

Cómo calcular la similitud de coseno

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?

En la capacitación de CNN, ¿también se actualizan los pesos correspondientes al mapa de características?

¿Cuáles son las áreas de investigación abiertas en refuerzo y aprendizaje profundo?

¿Qué tan buenas son mis posibilidades de conseguir un trabajo de científico de datos con un doctorado en el campo de la visión por computadora?

¿Cómo funciona el aprendizaje automático en el comercio algorítmico (finanzas)?

¿Qué tamaño debería tener mi bosque aleatorio aproximadamente si tengo 17 variables y medio millón de registros?