En los modelos gráficos dirigidos, algunos tipos de aprendizaje son fáciles. Específicamente, es fácil hacer una estimación de parámetros cuando se cumplen todas las siguientes condiciones o suposiciones: parámetros independientes , anteriores conjugados (o estimación de máxima verosimilitud), estructura conocida y datos completamente observados .
En la mayoría de los casos, es razonable asumir parámetros independientes (o usar una forma simple de vinculación de parámetros que mantenga la estimación de parámetros manejable). Los anteriores conjugados también son muy comunes: son matemáticamente convenientes y son lo suficientemente buenos la mayor parte del tiempo.
Una estructura conocida puede o no ser una suposición razonable, dependiendo del tipo de problema que intente resolver. Si está tratando de aprender las relaciones entre las variables, como qué enfermedades están asociadas con qué síntomas, entonces probablemente desee optimizar sobre diferentes estructuras, y eso generalmente es NP-duro. Si ya conoce las relaciones e independencia en el dominio, entonces una estructura especificada previamente podría estar bien.
- ¿Cuáles son algunos proyectos increíbles bajo 100 líneas?
- ¿Cuál es el futuro del aprendizaje de refuerzo profundo? ¿Es una buena idea comenzar un doctorado ahora trabajando en ataques adversos en sistemas RL?
- Si pudiera construir una plataforma de contenido (piense en la entrega de noticias) desde cero con el objetivo de escalar a millones de usuarios, ¿qué infraestructura utilizaría?
- ¿Puedo seguir siendo un desarrollador de aprendizaje automático si tengo miedo a las matemáticas?
- ¿Cómo utilizan las empresas los algoritmos de IA en aplicaciones prácticas?
La condición que se viola con mayor frecuencia son los datos completamente observados . A veces, faltan valores en los datos, como pruebas médicas que se realizan para algunos pacientes pero no para otros. Otras veces, el modelo tiene variables latentes u ocultas que nunca se observan. Por ejemplo, en los modelos de tema, el tema de cada palabra en un documento nunca se observa directamente. Cuando faltan valores o variables latentes, los valores de estas variables deben inferirse durante el aprendizaje. La forma estándar de hacer esto es con el algoritmo de maximización de expectativas o alguna forma de descenso de gradiente, los cuales requieren realizar inferencia en cada iteración hasta que el algoritmo converja. Incluso cuando la inferencia es fácil, es un problema no convexo, lo que hace que sea difícil encontrar los mejores parámetros: diferentes parámetros iniciales podrían conducir a resultados diferentes.
Recientemente, ha habido un trabajo emocionante sobre métodos espectrales para aprender modelos variables latentes. Con los métodos espectrales, la estimación de parámetros es un problema de optimización convexo que es fácil de optimizar. Sin embargo, la maximización de expectativas a menudo encuentra mejores parámetros en la práctica.
La inferencia es casi siempre difícil, tanto con modelos gráficos dirigidos como no dirigidos. En general, calcular o aproximar probabilidades es NP-hard. Calcular las probabilidades exactas generalmente requiere un tiempo exponencial en el ancho del árbol del gráfico, a menos que exista algún otro tipo de estructura para los factores o distribuciones de probabilidad condicional que facilite la inferencia.
Estos temas están cubiertos en la mayoría de los libros de texto sobre modelos gráficos. Consulte el libro de texto de Koller y Friedman sobre modelos gráficos probabilísticos para obtener la cobertura más completa sobre este tema.