¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

La comparación de modelos gráficos con clasificadores como SVM o redes neuronales, es una comparación de manzanas con naranjas.

Los modelos gráficos (específicamente, los modelos gráficos dirigidos o las redes Bayes) tienen características que los clasificadores no tienen, como:

  • Utilice la intuición humana y de dominio para guiar el aprendizaje de la estructura de la red Bayes. La capacidad equivalente (para usar el conocimiento del dominio) en el lado del clasificador sería la ingeniería de características, pero no es tan capaz.
  • La naturaleza “gráfica” de una red Bayes permite a un modelador mirar dentro del modelo y examinar las correlaciones, la causalidad (y revisar los supuestos de causalidad cuando los datos están disponibles), examinar los supuestos de independencia condicional y similares, lo que no es tan sencillo en un clasificador .
  • Un modelo gráfico le permite a uno explotar la estructura del problema de aprendizaje. Dos ejemplos para mostrar qué es eso:
    • En el Problema de reconocimiento de entidad con nombre, la anotación de “Ciudad de Nueva York” como un lugar y “The New York Times” como organización, se hace aprendiendo que (la probabilidad de) tener el prefijo The, es mayor para una organización que para un lugar . CRF son el tipo de modelo gráfico que normalmente se usa para esto .
    • En el problema de detección de pose corporal (lo que un Kinect tiene que hacer cuando juegas un juego frente a su cámara), la posición de las manos está condicionada a la posición del torso.
    • Por el contrario, la mayoría de los clasificadores se basan en instancias y no son lo suficientemente sofisticados como para indicar supuestos de independencia entre características (más allá de la medida, como la ponderación de características como en SVM)
  • Debo señalar que, si bien las Redes Neurales también son capaces de aprender estructura (como en el problema de Reconocimiento de entidades nombradas), es probable que necesiten muchos más datos para aprender el mismo supuesto de independencia condicional, ya que la intuición humana no se puede utilizar como un método previo. para guiar el aprendizaje. Sin embargo, no tengo referencias para respaldar esta afirmación.

More Interesting

¿Qué algunos documentos sobre desafíos en predicción financiera con técnicas de aprendizaje automático?

Cómo elegir el modelo correcto con la distribución correcta

¿Cuál sería el mejor desafío de Kaggle para mí como entusiasta del aprendizaje automático de nivel intermedio?

¿Por qué es tan difícil automatizar la inferencia variacional?

¿Por qué la longitud desigual del texto es un problema en el procesamiento del lenguaje natural?

Entre JavaScript y la ciencia de datos, ¿qué debo hacer? Tengo que aprender a los dos desde cero.

¿Cuáles son algunas aplicaciones destacadas de los métodos de máxima verosimilitud?

¿Cómo podemos usar la herramienta Weka para crear un sistema de recomendación?

¿Cuánto aprendizaje profundo puedes aprender en 20 días si trabajas todo el día?

¿Cuál es la mejor manera de combinar datos clínicos y de imagen en un enfoque de aprendizaje profundo?

Cómo usar la red neuronal de retardo de tiempo para la clasificación del conjunto de datos MNIST

¿Es esta tabla Hoja de trucos de Machine Learning (para scikit-learn) una descripción precisa de cuándo se deben aplicar diferentes técnicas de aprendizaje automático?

¿Hay alguna debilidad en el uso de la agrupación máxima y la agrupación promedio?

¿Qué otras arquitecturas de redes neuronales se han utilizado para reducir las facturas de energía del centro de datos aparte del método de DeepMind?

¿Cuál es la diferencia entre TensorFlow y Grep? ¿Cuál es el más adecuado para el aprendizaje automático? ¿Por qué o por qué no?