Esta pregunta es equivalente a preguntar: ¿cuándo es mejor la salsa de soja para mi plato que el ajo?
Como Alex Smola describe en su respuesta, se reduce a lo que es más apropiado para el problema (ingredientes para la tarea de cocinar). Y muchos platos sabrosos usan salsa de soja y ajo.
Para elaborar, es útil ver cómo se utilizan los modelos gráficos y profundos. Esto nos ayudará a darnos cuenta de que la naturaleza probabilística de un modelo no necesariamente interfiere con su Profundidad.
¿Qué es un modelo gráfico probabilístico?
El objetivo de un modelo probabilístico es capturar la distribución conjunta de {variables de entrada, variables de salida, variables latentes / molestas, parámetros e hiperparámetros}. En un modelo probabilístico, todo es una variable aleatoria. Los valores fijos se deben a que la variable está condicionada o porque tiene una confianza infinita en su valor (distribución delta). Las variables latentes son variables inventadas que son más o menos análogas al papel de las variables ocultas en una red neuronal multicapa.
Para problemas no triviales, no es fácil capturar un modelo manejable de la distribución conjunta a partir de observaciones limitadas de variables de entrada y salida. Lo más probable es que tenga que hacer simplificaciones / suposiciones (el siguiente texto en esta sección es un poco técnico. Se puede omitir):
- Haga algunos supuestos de independencia condicional, generalmente codificados como un gráfico (como en un gráfico matemático discreto; no gráficos / trama / gráfico). Esta especificación gráfica de la independencia condicional es la característica definitoria de un modelo gráfico probabilístico .
- Suponga una distribución previa vaga de estas variables para regularizar el problema de estimación del modelo.
- Integrar variables molestas.
Entrenamiento de un modelo gráfico : El término real es inferencia o estimación. La distribución de variables latentes, parámetros e hiperparámetros se estiman dadas las observaciones de las variables de entrada y salida.
Predecir con un modelo gráfico : este paso estima la distribución marginal de las variables de salida condicionadas a los valores observados de las variables de entrada de la consulta.
¿Qué es un modelo profundo (de aprendizaje)?
Un modelo profundo utiliza una estructura de modelo jerárquico donde la salida de un modelo se convierte en la entrada del siguiente modelo de nivel superior. Aprender / estimar / optimizar los parámetros de estos modelos se denomina Aprendizaje profundo .
La estructura jerárquica profunda y la estructura gráfica (probabilística) son características ortogonales para un modelo : la profundidad no excluye la estructura gráfica probabilística y viceversa.
Dicho esto, el problema de agregar una estructura jerárquica profunda a un modelo gráfico arbitrario o agregar un componente probabilístico a los modelos profundos generalmente no se entiende bien.
Un ejemplo interesante en el que se profundizó un modelo probabilístico existente es el Proceso Gaussiano Profundo.
Un ejemplo de lo inverso, donde la adición de la estructura probabilística a un modelo profundo resulta útil, se describe en Lo que mi modelo profundo no sabe.
Se puede argumentar que los dos anteriores son ejemplos de modelos probabilísticos profundos y no modelos gráficos probabilísticos profundos. Pero como se describió anteriormente: un modelo gráfico probabilístico es solo un modelo probabilístico con supuestos de independencia condicional.
Una máquina de Boltzmann restringida profunda (RBM) es un ejemplo de un modelo que es tanto profundo como un modelo gráfico probabilístico.
¿Por qué querría tener predicciones probabilísticas?
Las predicciones de un modelo probabilístico capturan una noción de incertidumbre basada en principios. Esto es muy útil cuando un modelo de nivel superior debe tomar decisiones utilizando predicciones de modelos de nivel inferior. Un ejemplo simple sería el promedio de modelos . Un ejemplo más complicado sería la asociación de datos para el cierre de bucles en Mapeo y localización simultáneos ( SLAM ); sin nociones de principios de incertidumbre, la asociación de datos en SLAM se reduciría a una coincidencia de fuerza bruta.
¿Por qué querría tener una estructura profunda?
Actualmente, los modelos profundos son la solución más práctica que tenemos para el problema del aprendizaje de características . Los modelos profundos han proporcionado una alternativa elegante a la ruina de la ingeniería de características al construir modelos de predicción / clasificación en (al menos) los dominios de datos de imagen y habla.
Finalmente …
Una cosa que los modelos gráficos probabilísticos generalmente hacen mejor que los modelos de aprendizaje profundo (actuales) es la estimación de hiperparámetros . En muchos casos, es posible optimizar eficientemente los hiperparámetros de un modelo gráfico, utilizando la probabilidad marginal de hiperparámetros dados las observaciones de datos como una función objetivo. Para un modelo de aprendizaje profundo, debe recurrir a una búsqueda de cuadrícula.