¿Cuándo recomendaría los modelos gráficos sobre el aprendizaje profundo?

El aprendizaje profundo y los modelos gráficos no son conceptos mutuamente excluyentes. Puede tener modelos gráficos con una estructura latente jerárquica profunda, como máquinas de Boltzmann profundas. También puede tener modelos gráficos cuyas distribuciones de probabilidad condicional locales están definidas por redes neuronales profundas. El autoencoder variacional es un ejemplo del último tipo de modelo gráfico.

El uso de un enfoque que incluye un modelo gráfico es lo más importante cuando desea poder calcular muchas distribuciones de probabilidad diferentes asociadas con la misma tarea de modelado. Por ejemplo, si desea completar los valores faltantes o realizar una clasificación cuando faltan algunas entradas, es mejor con una máquina de Boltzmann profunda que con una red neuronal tradicional. La Fig. 3 y la Fig. 6 de este documento demuestran algunas de esas capacidades de los modelos gráficos, pero utilizando una máquina de Boltzmann que también puede interpretarse como una red neuronal y también como un modelo gráfico: Máquinas de Boltzmann Profundas de Predicción Múltiple

¿Está nuestro cerebro conectado para reconocer y admirar la simetría o otros animales también muestran rasgos similares?

¿Cuál es la diferencia entre SVD y factorización matricial en el contexto del motor de recomendación?

Si quiero implementar un filtro de spam, ¿cuál es el algoritmo más simple y eficiente que debo usar?

¿En qué aspectos el aprendizaje automático y la inteligencia artificial cambiarán la fabricación pesada, como la industria del petróleo y el gas?

¿MPLS viola el argumento de extremo a extremo?

¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?

Esto parece ser una serie de preguntas erróneas que suponen implícitamente que el aprendizaje profundo compite con los modelos gráficos o los ha asumido. Nada mas lejos de la verdad.

La característica definitoria del aprendizaje profundo es la naturaleza profunda / jerárquica de los modelos y un caso de uso popular ha sido para objetivos de aprendizaje supervisados, es decir, predicción. Los modelos gráficos no son realmente sobre profundidad o jerarquía, y su aplicación es independiente de los objetivos supervisados / no supervisados.

Los modelos gráficos son fundamentalmente sobre modelos que definen relaciones estadísticas de dependencia / independencia entre variables aleatorias. Los modelos gráficos más populares codifican la independencia condicional entre variables aleatorias como las redes de Markov no dirigidas / dirigidas, pero existen otras familias de modelos gráficos que también se definen por relaciones de independencia marginal.

Los modelos gráficos se pueden utilizar para la estimación manejable de distribuciones de probabilidad multivariadas y son un ingrediente importante para la inferencia estadística causal. También se pueden usar para construir modelos predictivos (por ejemplo, campos aleatorios condicionales en el procesamiento del lenguaje natural, redes de Markov de margen máximo). Como los modelos gráficos hacen que las distribuciones de probabilidad complejas sean manejables computacionalmente para inferir, a menudo se emplean para modelar modelos jerárquicos complejos. Se pueden combinar con modelos de aprendizaje profundo (por ejemplo, máquinas Deep Boltzmann) como señala Yann Lecun a continuación. Ver también [1603.06277] Composición de modelos gráficos con redes neuronales para representaciones estructuradas e inferencia rápida

Yann Lecun dice:

A veces recibo preguntas como “¿cómo se compara el aprendizaje profundo con los modelos gráficos?”. No hay respuesta a esta pregunta porque el aprendizaje profundo y los modelos gráficos son conceptos ortogonales que se pueden combinar (y se han combinado).

Permítanme decir esto muy claramente: no hay oposición entre los dos paradigmas. Se pueden combinar ventajosamente

Ediciones: Actualicé mis declaraciones para reflejar las correcciones en los comentarios. Como alguien fuera de la comunidad de aprendizaje profundo, los objetivos de aprendizaje supervisado de la mayoría de las aplicaciones de aprendizaje profundo me parecieron sobresalientes, pero como esto no es fundamental, he editado mi respuesta. Dado que el aprendizaje profundo lo ayuda a aprender funciones complejas de cualquier tipo, los modelos gráficos son útiles para modelar y aprender distribuciones de probabilidad complicadas y basadas en datos.

Pradeep Ranganathan

Esta pregunta es equivalente a preguntar: ¿cuándo es mejor la salsa de soja para mi plato que el ajo?

Como Alex Smola describe en su respuesta, se reduce a lo que es más apropiado para el problema (ingredientes para la tarea de cocinar). Y muchos platos sabrosos usan salsa de soja y ajo.

Para elaborar, es útil ver cómo se utilizan los modelos gráficos y profundos. Esto nos ayudará a darnos cuenta de que la naturaleza probabilística de un modelo no necesariamente interfiere con su Profundidad.

¿Qué es un modelo gráfico probabilístico?

El objetivo de un modelo probabilístico es capturar la distribución conjunta de {variables de entrada, variables de salida, variables latentes / molestas, parámetros e hiperparámetros}. En un modelo probabilístico, todo es una variable aleatoria. Los valores fijos se deben a que la variable está condicionada o porque tiene una confianza infinita en su valor (distribución delta). Las variables latentes son variables inventadas que son más o menos análogas al papel de las variables ocultas en una red neuronal multicapa.

Para problemas no triviales, no es fácil capturar un modelo manejable de la distribución conjunta a partir de observaciones limitadas de variables de entrada y salida. Lo más probable es que tenga que hacer simplificaciones / suposiciones (el siguiente texto en esta sección es un poco técnico. Se puede omitir):

Haga algunos supuestos de independencia condicional, generalmente codificados como un gráfico (como en un gráfico matemático discreto; no gráficos / trama / gráfico). Esta especificación gráfica de la independencia condicional es la característica definitoria de un modelo gráfico probabilístico .
Suponga una distribución previa vaga de estas variables para regularizar el problema de estimación del modelo.
Integrar variables molestas.

Entrenamiento de un modelo gráfico : El término real es inferencia o estimación. La distribución de variables latentes, parámetros e hiperparámetros se estiman dadas las observaciones de las variables de entrada y salida.

Predecir con un modelo gráfico : este paso estima la distribución marginal de las variables de salida condicionadas a los valores observados de las variables de entrada de la consulta.

¿Qué es un modelo profundo (de aprendizaje)?

Un modelo profundo utiliza una estructura de modelo jerárquico donde la salida de un modelo se convierte en la entrada del siguiente modelo de nivel superior. Aprender / estimar / optimizar los parámetros de estos modelos se denomina Aprendizaje profundo .

La estructura jerárquica profunda y la estructura gráfica (probabilística) son características ortogonales para un modelo : la profundidad no excluye la estructura gráfica probabilística y viceversa.

Dicho esto, el problema de agregar una estructura jerárquica profunda a un modelo gráfico arbitrario o agregar un componente probabilístico a los modelos profundos generalmente no se entiende bien.

Un ejemplo interesante en el que se profundizó un modelo probabilístico existente es el Proceso Gaussiano Profundo.

Un ejemplo de lo inverso, donde la adición de la estructura probabilística a un modelo profundo resulta útil, se describe en Lo que mi modelo profundo no sabe.

Se puede argumentar que los dos anteriores son ejemplos de modelos probabilísticos profundos y no modelos gráficos probabilísticos profundos. Pero como se describió anteriormente: un modelo gráfico probabilístico es solo un modelo probabilístico con supuestos de independencia condicional.

Una máquina de Boltzmann restringida profunda (RBM) es un ejemplo de un modelo que es tanto profundo como un modelo gráfico probabilístico.

¿Por qué querría tener predicciones probabilísticas?

Las predicciones de un modelo probabilístico capturan una noción de incertidumbre basada en principios. Esto es muy útil cuando un modelo de nivel superior debe tomar decisiones utilizando predicciones de modelos de nivel inferior. Un ejemplo simple sería el promedio de modelos . Un ejemplo más complicado sería la asociación de datos para el cierre de bucles en Mapeo y localización simultáneos ( SLAM ); sin nociones de principios de incertidumbre, la asociación de datos en SLAM se reduciría a una coincidencia de fuerza bruta.

¿Por qué querría tener una estructura profunda?

Actualmente, los modelos profundos son la solución más práctica que tenemos para el problema del aprendizaje de características . Los modelos profundos han proporcionado una alternativa elegante a la ruina de la ingeniería de características al construir modelos de predicción / clasificación en (al menos) los dominios de datos de imagen y habla.

Finalmente …

Una cosa que los modelos gráficos probabilísticos generalmente hacen mejor que los modelos de aprendizaje profundo (actuales) es la estimación de hiperparámetros . En muchos casos, es posible optimizar eficientemente los hiperparámetros de un modelo gráfico, utilizando la probabilidad marginal de hiperparámetros dados las observaciones de datos como una función objetivo. Para un modelo de aprendizaje profundo, debe recurrir a una búsqueda de cuadrícula.

Alex Smola

Los modelos gráficos probabilísticos (PGM) y las redes neuronales profundas (DNN) pueden aprender de los datos existentes. PGM se configuran en un nivel más abstracto. Es decir, las diferentes variables de entrada que se conocen sobre el problema están relacionadas entre sí a través de la construcción de un gráfico. Las probabilidades entre las variables se aproximan utilizando los datos de entrenamiento existentes. En un DNN, la configuración está en un nivel mucho más bajo (es decir, capas, funciones de activación, funciones objetivo, etc.) y no se configuran las relaciones entre las variables de entrada. Además, no existe un mecanismo para restringir un DNN de manera que se conserven las relaciones entre las variables de entrada.

Los PGM aprenden a través de aproximaciones de distribuciones de probabilidad, los DNN aprenden a través del descenso de gradiente. En general, uno realiza la integración con PGM y uno realiza la operación inversa (es decir, diferenciación) con DNN. Sin embargo, en ambos casos, el algoritmo de aprendizaje funciona a través de un espacio de búsqueda en busca de una solución.

La ventaja de usar un PGM es que el sistema aprendido es menos de un recuadro negro y uno puede realizar análisis adicionales si eliminando variables y relaciones. Además, uno puede determinar qué variables contribuyen a una predicción y, por lo tanto, un analista tiene algún tipo de explicación de por qué un sistema hace sus predicciones. En contraste, no tienes este lujo con un DNN.

La fortaleza de un DNN es que puede manejar dominios problemáticos mucho más grandes, no es necesario forjar relaciones y, finalmente, se sabe que su capacidad predictiva supera a otros sistemas competitivos.

Alex Smola

Esta es una pregunta difícil, sobre todo porque esto no es realmente una contradicción, sino una cuestión de encontrar la herramienta adecuada para el trabajo correcto. Voy a simplificar un poco las cosas:

Modelos gráficos

Capacidad para describir la estructura entre variables aleatorias con gran detalle.
Impresionante para capturar la causalidad, ver, por ejemplo, el gran libro de Juda Pearl. Para un ejemplo reciente de lo que puede hacer automáticamente, vea el artículo de Seth Flaxman. Limpia cuidadosamente los efectos causales, por ejemplo, para los precios de la vivienda, la contaminación, etc.
Capture fácilmente los supuestos de diseño de los ingenieros.
Representaciones comprensibles, por ejemplo, grupos, árboles, jerarquías, ontologías. Hay un buen papel, por ejemplo, para imágenes de Ryan Adams. Amplíe las imágenes para ver cuál es la categoría más general.
Capacidad para obtener buenas estimaciones probabilísticas, a menudo confianza, etc.

Aprendizaje profundo

Capacidad para tomar datos sin mucho preprocesamiento y aún así hacer un buen trabajo.
A menudo obtiene mejores resultados que un modelado estadístico cuidadoso.
Mezclar tipos de datos es más fácil

Por lo tanto, parece que el aprendizaje profundo estaba haciendo algo ‘mágicamente diferente’, excepto que no es así. Solo está dejando caer algunas suposiciones que son útiles en configuraciones de muestra pequeñas en modelos gráficos, pero que no funcionan tan bien a gran escala. Por ejemplo, los clústeres son una buena idea cuando sabes que solo tienes un pequeño número de grupos distintos. Si abandonas esta suposición de inmediato, te acercarás a los datos, siempre que tengas suficientes datos para aprender. Es por eso que tanto el aprendizaje profundo como los métodos espectrales funcionan muy bien en este contexto.

La pregunta de investigación es cómo combinarlos. Esto se puede hacer, por ejemplo, utilizando algunas de las funciones objetivas de los modelos gráficos, por ejemplo, un campo aleatorio condicional, una pérdida estructurada o algo similar. Pero el problema más grande que aún queda por resolver es cómo incorporar eficientemente las descomposiciones de modelos en el aprendizaje profundo.

Brando Miranda

Los “modelos gráficos” (simulación de eventos discretos) pueden considerarse un superconjunto de las matemáticas de aprendizaje profundo.

Consulte Resolución del problema de la comprensión conceptual del lenguaje verdadero en agentes inteligentes artificiales: Propuesta de proyecto:

“3 ¿Pueden las matemáticas de investigación de IA hacerse más prácticas?
¿Se puede hacer la investigación de IA más práctica “aplicada” o en el mundo real? ¿Se pueden aplicar las técnicas matemáticas utilizadas en el aprendizaje automático y el aprendizaje profundo (es decir, cálculo más técnicas adicionales) a más problemas del mundo real que la coincidencia de patrones, el ajuste de curvas y la clasificación?

Estas técnicas matemáticas generalmente se basan en un científico de datos que decide el tamaño apropiado de incremento requerido en algunos valores de datos necesarios para encontrar algún valor mínimo. Esta búsqueda de un mínimo también se puede hacer cuando el incremento se establece en función de una unidad de tiempo regular. Cuando se hace esto, las “matemáticas de aprendizaje automático” siguen continuamente los cambios a lo largo del tiempo. Esta es la base de la simulación continua. Un tercer enfoque, nuevamente usando el tiempo como eje, define incrementos basados en cuándo se esperan eventos en una situación particular o en un estado descriptivo o modelo de proceso. Este enfoque se llama simulación de eventos discretos y, desde una perspectiva matemática, se puede considerar que se usa para modelar las cadenas de Markov. Estos tres enfoques en realidad forman una jerarquía donde la simulación continua contiene el subconjunto de problemas matemáticos conocido como aprendizaje automático / cálculo. La simulación de eventos discretos (DES) es un superconjunto de las otras dos técnicas más simples. DES también puede usar técnicas como análisis de algoritmos genéticos “.

Los métodos de aprendizaje profundo tienen sus limitaciones, por ejemplo, ver Pionero de inteligencia artificial dice que necesitamos comenzar de nuevo.

Siga @HEMSEYE en Twitter para más actualizaciones.

Pradeep Ranganathan

En general, los modelos de aprendizaje profundo están destinados a la extracción de características. La validez de las características aprendidas se mide por la función de pérdida.

La función de pérdida es como un punto de vista de programador de alto nivel. Desempeña el papel de transmitir a la red lo que se debe aprender, en un sentido muy común.

Del mismo modo, los modelos gráficos se utilizan para asimilar cualquier forma de conocimiento previo sobre la relación (entre entidades) en el proceso de aprendizaje. Una vez más, este prior es a menudo el conocimiento del “sentido común” que los humanos han interpretado de millones de años de su experiencia.

Es un problema de huevo y gallina: para aprender un buen conocimiento del sentido común, uno necesita características que realmente puedan hablar de esas pequeñas diferencias (el cielo es la misma entidad, ya sea que aparezca en la BG de una imagen de rascacielos o en una imagen del océano) ; Para aprender buenas características para una comprensión compleja del mundo (no solo un simple reconocimiento), se necesitará una gran cantidad de datos que se pueden intercambiar con una buena entrada de alto nivel (función de pérdida).

Creo que ningún modelo puede explicar el mundo complejo por sí solo.

De hecho, cualquier modelo de aprendizaje profundo puede aprender de manera eficiente características más potentes mediante el diseño de funciones de pérdida (capas) que pueden imponer cualquier forma de restricciones de relación en el modelo. Veremos un gran avance en la construcción de híbridos de modelo gráfico y DNN.

En particular, puede avanzar la investigación en aprendizaje débilmente supervisado y no supervisado.

Pradeep Ranganathan

Los modelos gráficos son favorables cuando tiene conocimientos especializados sobre el problema, como el modelado de sistemas de diagnóstico de enfermedades. Como sabemos qué síntomas se relacionan con qué enfermedades podemos estructurar nuestro modelo tal como es. Y creo que ningún modelo de aprendizaje profundo ad-hoc superaría a semejante contraparte.

Pradeep Ranganathan

Mira esto:

[1604.01662] Hacia el aprendizaje profundo bayesiano: una encuesta

Alex Smola

También me gustaría mencionar este artículo:

[1502.03240] Campos aleatorios condicionales como redes neuronales recurrentes

Pradeep Ranganathan

More Interesting

¿Cómo son los cursos en edX sobre aprendizaje automático, ingeniería artificial y robótica para el empleo?

¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

Cómo hacer que una red neuronal funcione como PCA

¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?