En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?

En los modelos gráficos dirigidos, algunos tipos de aprendizaje son fáciles. Específicamente, es fácil hacer una estimación de parámetros cuando se cumplen todas las siguientes condiciones o suposiciones: parámetros independientes , anteriores conjugados (o estimación de máxima verosimilitud), estructura conocida y datos completamente observados .

En la mayoría de los casos, es razonable asumir parámetros independientes (o usar una forma simple de vinculación de parámetros que mantenga la estimación de parámetros manejable). Los anteriores conjugados también son muy comunes: son matemáticamente convenientes y son lo suficientemente buenos la mayor parte del tiempo.

Una estructura conocida puede o no ser una suposición razonable, dependiendo del tipo de problema que intente resolver. Si está tratando de aprender las relaciones entre las variables, como qué enfermedades están asociadas con qué síntomas, entonces probablemente desee optimizar sobre diferentes estructuras, y eso generalmente es NP-duro. Si ya conoce las relaciones e independencia en el dominio, entonces una estructura especificada previamente podría estar bien.

La condición que se viola con mayor frecuencia son los datos completamente observados . A veces, faltan valores en los datos, como pruebas médicas que se realizan para algunos pacientes pero no para otros. Otras veces, el modelo tiene variables latentes u ocultas que nunca se observan. Por ejemplo, en los modelos de tema, el tema de cada palabra en un documento nunca se observa directamente. Cuando faltan valores o variables latentes, los valores de estas variables deben inferirse durante el aprendizaje. La forma estándar de hacer esto es con el algoritmo de maximización de expectativas o alguna forma de descenso de gradiente, los cuales requieren realizar inferencia en cada iteración hasta que el algoritmo converja. Incluso cuando la inferencia es fácil, es un problema no convexo, lo que hace que sea difícil encontrar los mejores parámetros: diferentes parámetros iniciales podrían conducir a resultados diferentes.

Recientemente, ha habido un trabajo emocionante sobre métodos espectrales para aprender modelos variables latentes. Con los métodos espectrales, la estimación de parámetros es un problema de optimización convexo que es fácil de optimizar. Sin embargo, la maximización de expectativas a menudo encuentra mejores parámetros en la práctica.

La inferencia es casi siempre difícil, tanto con modelos gráficos dirigidos como no dirigidos. En general, calcular o aproximar probabilidades es NP-hard. Calcular las probabilidades exactas generalmente requiere un tiempo exponencial en el ancho del árbol del gráfico, a menos que exista algún otro tipo de estructura para los factores o distribuciones de probabilidad condicional que facilite la inferencia.

Estos temas están cubiertos en la mayoría de los libros de texto sobre modelos gráficos. Consulte el libro de texto de Koller y Friedman sobre modelos gráficos probabilísticos para obtener la cobertura más completa sobre este tema.

More Interesting

¿Es posible determinar cuánto 'aprende' una red neuronal desde un punto de datos dado en el conjunto de entrenamiento?

¿Cuáles son los proyectos de aprendizaje automático que puedo hacer para practicar y aprender como principiante?

¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

¿Cuáles son las diferencias entre hacer aprendizaje automático en la academia y en la industria?

¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?

¿Qué tan bien funcionará una GTX 1060 en Windows para el aprendizaje profundo?

¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?

¿Qué debo elegir, asociado de desarrollo de negocios en Think and Learn o analista de investigación en Edureka?

¿Cuál es la mejor tarea para las redes neuronales en 2017 y tal vez para los próximos 5 años?

En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?

¿Cómo debo aprender el aprendizaje automático? ¿Puede proporcionar una hoja de ruta específica desde un principiante hasta un experto?

¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

¿Cuál es el papel de la descomposición de Cholesky en la búsqueda de PDF normal multivariante?

Cómo implementar el análisis de sentimientos en proyectos de retroalimentación de clientes

¿Cómo son los cursos en edX sobre aprendizaje automático, ingeniería artificial y robótica para el empleo?