¿Cómo se usan las redes neuronales para la predicción de salida estructurada?

Bueno, puedes hacer lo ingenuo, y usar salidas NN en un término unario y poner un CRF en la parte superior. El siguiente documento utiliza esto para la segmentación semántica en imágenes:

[1412.7062] Segmentación de imagen semántica con redes convolucionales profundas y CRF totalmente conectados

O bien, puede tener un modelo estructurado y predecir los parámetros de ese modelo a partir del NN. Por ejemplo, tenga un modelo PCA de forma de objeto o una transformación Thin Plate Splines para representar la deformación entre dos imágenes, con el NN prediciendo los parámetros de estos modelos para una instancia de prueba dada:

[1604.08685] Red de intérpretes 3D de imagen única

Emparejamiento débilmente supervisado para reconstrucción de vista única

O bien, puede tener una pérdida estructurada, lo que obliga a las unidades de salida individuales a producir algo mutuamente consistente. Por ejemplo, si desea que el vector de salida de una capa final totalmente conectada sea un vector unitario, simplemente colóquelo como un término regularizador ponderado con su pérdida original. Creo que el siguiente documento hace algo como esto, si nos fijamos en la ecuación (4), término Ecnn:

[1512.06735] Segmentación a nivel de instancia para conducción autónoma con MRF densamente conectados

Si entiendo esta pregunta correctamente, la única forma posible es que el programa interprete la salida de la red neuronal. Por ejemplo, muchos clasificadores dirigidos a imágenes netas generan probabilidades de cada neurona. Luego, el programa interpreta que cada neurona es algo como “perro” o “gato”. Entonces, la neurona “perro” podría producir un 33% y la neurona “gato” podría producir un 55%, por lo que el programa predeciría “gato” con un 55% de confianza.