Yo abordaría esto de manera similar al enfoque de Conner Davis. La idea es que se trata de automóviles y esos automóviles tienen diferentes marcas y diferentes poses, por lo que viene a la mente un árbol de decisión. Pero espera un segundo, ¿un árbol de decisión? Sí, pero no es el típico árbol de decisión, sigue leyendo.
Entonces, el enfoque es utilizar un método de curso a fin utilizando una estructura similar a un árbol de decisión, el detector de automóviles es el detector de raíz que se ramifica en el detector de pose de automóviles. El detector de pose tiene salidas [math] p [/ math] que representan el número de ramas en ese nodo. Cada una de las salidas [math] p [/ math] conduce al detector de marca (cada pose de vista necesita un detector de marca separado, es decir, la vista frontal, la vista lateral y la vista posterior necesitan detectores de marca separados) que se divide en [math] b [/ math ] salidas que representan las marcas [math] b [/ math]. Eso significa que necesitará detectores de marca [math] p [/ math]. El camino a través de esta estructura de árbol le dará la respuesta que está buscando.
Una ilustración simplificada es como se muestra a continuación:
- ¿Por qué todo el conocimiento humano es solo una copia de las combinaciones de 26 letras de la biblioteca Babel?
- ¿Cuáles son algunos otros casos de uso para los robots SPIDER de Lockheed?
- ¿Se puede desarrollar AI para ayudar a codificar programas y juegos con la dirección de un humano?
- ¿Cuáles son las mejores formas de comenzar a implementar una red neuronal?
- ¿Cuál es la diferencia entre una prueba de Turing fuerte y una prueba de Turing débil?
detector de coche-> detector de pose-> detector de marca
El detector de automóviles se puede implementar utilizando la red de propuesta de región (RPN) como se usa en el enfoque Faster R-CNN. Llamémosla la red de propuestas de automóviles (CPN) porque está específicamente limitada a la detección de automóviles. Este CPN tendrá que alimentarse del mapa de características de conv de alto nivel de AlexNet, por ejemplo. Básicamente comprende dos pequeñas redes neuronales completamente conectadas (NN), la red de regresión para la regresión de cuadro delimitador y el clasificador de automóvil que da la probabilidad de que un automóvil esté allí o no. Se alimenta desde una pequeña ventana deslizante muestreada (3 × 3) sobre el mapa de características de alto nivel. Por lo tanto, la salida del CPN será regresiones de cuadro delimitador [math] k [/ math] con los anclajes correspondientes que varían en términos de relación de aspecto y escala.
El CPN identificará posibles regiones de interés que tienen una alta probabilidad de contener un vehículo. Dichas regiones pueden enviarse además al detector de pose. Llamemos al estimador de pose, la red de pose (PN), si tiene poses [math] p [/ math] eso significa que las salidas [math] p [/ math] provienen de la PN.
El PN también es básicamente un NN completamente conectado que se alimenta del mismo mapa de características de conv que el CPN pero que se enfoca en las regiones muestreadas propuestas en una red pre-entrenada como AlexNet. La PN necesita una función de activación softmax porque cada automóvil solo puede estar en una de las posturas [math] p [/ math]. El softmax hará que las salidas compitan. Por lo tanto, la PN generará probabilidades relacionadas con las poses del automóvil.
Para cada pose, entrene un detector de marca de automóvil por separado. Entonces, si tiene marcas [math] b [/ math], eso significa resultados [math] b [/ math] por pose. Pongamos el nombre del detector de marca como la red de marca (BN), que básicamente es también una alimentación NN completamente conectada, también desde el mismo mapa de características de conv. Que las redes CPN y PN. Tendrá que entrenar [matemática] p [/ matemática] redes BN separadas. Al igual que el PN, el BN necesita una función de activación softmax para generar también la probabilidad de la marca.
Entonces, esta es una arquitectura compleja que requiere que cada módulo se entrene por separado.
Por ejemplo, si tiene una imagen de entrada que contiene una vista frontal del sedán. El proceso será como.
- El CPN encontrará la posición del automóvil, pero no tendrá idea de la pose o la marca. Solo se procesan más las regiones prometedoras, es decir, aquellas con alta probabilidad de contener un automóvil.
- La PN determinará la pose que es la vista frontal en este caso. Pero no tendrá idea de la marca del automóvil.
- La última etapa implicará solo ejecutar el detector de marca de vista frontal, mientras que la vista lateral, la vista posterior y otros detectores de marca se suprimirán.
Es por eso que esta arquitectura se basa en un árbol de decisión. El CPN tiene dos ramas, una es un callejón sin salida, lo que significa que no hay automóvil presente, mientras que la otra conduce al nodo PN que tiene p ramas que conducen a una red BN especializada para esa vista.
Dicho esto, este es un problema interesante y espero que haya sido igualmente una discusión interesante.
Espero que esto ayude.