¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte? La tecnología cambia la vida futura

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

La comparación de modelos gráficos con clasificadores como SVM o redes neuronales, es una comparación de manzanas con naranjas.

Los modelos gráficos (específicamente, los modelos gráficos dirigidos o las redes Bayes) tienen características que los clasificadores no tienen, como:

Utilice la intuición humana y de dominio para guiar el aprendizaje de la estructura de la red Bayes. La capacidad equivalente (para usar el conocimiento del dominio) en el lado del clasificador sería la ingeniería de características, pero no es tan capaz.
La naturaleza “gráfica” de una red Bayes permite a un modelador mirar dentro del modelo y examinar las correlaciones, la causalidad (y revisar los supuestos de causalidad cuando los datos están disponibles), examinar los supuestos de independencia condicional y similares, lo que no es tan sencillo en un clasificador .
Un modelo gráfico le permite a uno explotar la estructura del problema de aprendizaje. Dos ejemplos para mostrar qué es eso:

En el Problema de reconocimiento de entidad con nombre, la anotación de “Ciudad de Nueva York” como un lugar y “The New York Times” como organización, se hace aprendiendo que (la probabilidad de) tener el prefijo The, es mayor para una organización que para un lugar . CRF son el tipo de modelo gráfico que normalmente se usa para esto .
En el problema de detección de pose corporal (lo que un Kinect tiene que hacer cuando juegas un juego frente a su cámara), la posición de las manos está condicionada a la posición del torso.
Por el contrario, la mayoría de los clasificadores se basan en instancias y no son lo suficientemente sofisticados como para indicar supuestos de independencia entre características (más allá de la medida, como la ponderación de características como en SVM)

Debo señalar que, si bien las Redes Neurales también son capaces de aprender estructura (como en el problema de Reconocimiento de entidades nombradas), es probable que necesiten muchos más datos para aprender el mismo supuesto de independencia condicional, ya que la intuición humana no se puede utilizar como un método previo. para guiar el aprendizaje. Sin embargo, no tengo referencias para respaldar esta afirmación.