¿Por qué la minimización de la divergencia de KL ayuda en la convergencia de algoritmos de aprendizaje automático?

Creo que las respuestas anteriores dan una buena comprensión de la divergencia KL y ML. En el aprendizaje automático, una de las técnicas más utilizadas es la estimación de máxima verosimilitud, que básicamente trata de aprender los parámetros que maximizan la verosimilitud o la verosimilitud condicional. Esta es, por ejemplo, una técnica muy común y la forma en que uno aprende en Regresión logística, por ejemplo.

La divergencia de KL es una “distancia” entre las distribuciones de probabilidad, y mide la diferencia entre dos distribuciones de probabilidad. A diferencia de la mayoría de las distancias (como la distancia euclidiana), la divergencia KL no es simétrica.

Ahora, de manera interesante, la probabilidad máxima es equivalente a encontrar una distribución que tenga la menor divergencia de KL con respecto a la distribución subyacente verdadera. En efecto, estamos tratando de lograr un conjunto de parámetros, de modo que el modelo de probabilidad aprendido (por supuesto, esto tendrá sentido solo para clasificadores probabilísticos) esté más cerca de la verdadera distribución de probabilidad subyacente de los datos.

JQ mencionó qué es la divergencia de kl y supongo que sabes lo que es, así que voy a omitir la definición y entender por qué la usamos en el aprendizaje automático.

Imagine las salidas de un clasificador de 1000 clases, siendo cada clase una salida de probabilidad de confianza. Formarían una distribución de probabilidad. Ahora imagine que tiene una distribución de probabilidad “perfecta”, que son las etiquetas de entrenamiento de la verdad básica. Minimizar la divergencia kl le permitirá entrenar la red.

Nota: di un ejemplo con un clasificador discriminativo. En la práctica, los clasificadores rara vez se entrenan a través de la divergencia kl. Un ejemplo de uno que se entrena a través de la divergencia kl son los modelos generativos.

La divergencia Kullback-Liebler mide la “distancia” entre las distribuciones de probabilidad. La palabra distancia se cita ya que técnicamente no es una métrica y, por lo tanto, no es una distancia matemática. Sin embargo, en muchos casos, es más útil, ya que hay una distribución de referencia, P, y otra distribución, Q, y estamos tratando de descubrir cuánto perdemos usando Q en lugar de P. Aparece un mucho en la teoría de la información, donde P es la verdadera distribución del mensaje y Q es la que estamos usando para aproximarlo.

En el aprendizaje automático, es muy, muy útil, y no solo para mejorar la convergencia. Por ejemplo, imagine que tenemos una visión bayesiana de las cosas y queremos medir el efecto de los datos y la probabilidad en nuestro previo (cuando lo convierten en posterior). Los métodos bayesianos variacionales minimizan la divergencia KL de nuestro fácil trabajar con Q y el mucho más difícil de tratar con el posterior.

Sin saber su pregunta específica (es decir, de qué algoritmo está hablando), la dejaré allí. Si desea actualizar la pregunta, deje un comentario a esta respuesta y la actualizaré si tengo tiempo.

More Interesting

Tengo un conjunto de artículos de noticias, ¿cómo puedo determinar cuáles de ellos están hablando del mismo incidente utilizando técnicas de aprendizaje automático / aprendizaje profundo?

¿Qué porcentaje de trabajos serán reemplazados por IA y robots?

¿Cómo se puede evaluar la inteligencia?

¿Cómo se siente Karen Kolkey sobre la realidad virtual?

¿Qué tareas hacen mal las computadoras?

Cómo preparar a mis hijos para 2030 y en adelante cuando la IA está reemplazando a los humanos

Si los robots están reemplazando a los humanos, ¿necesitamos el crecimiento de la población para impulsar el crecimiento económico?

¿Qué problemas han demostrado que las computadoras no pueden resolver, pero que los humanos pueden resolver?

¿Los bots de IA están estafando el póker y los casinos en línea mientras pueden pasar desapercibidos?

¿Cuáles son las mejores cosas que ha hecho IBM Watson?

¿Quién obtendrá primero el conocimiento similar a Skynet sobre el comportamiento humano, Google o Facebook?

Al sintonizar una red neuronal, ¿cuánto tiempo suele esperar mientras entrena antes de cambiar los hiperparámetros y probar otra configuración?

¿Qué podrían ser posibles aplicaciones de aprendizaje de refuerzo profundo en la industria aparte de la robótica?

¿Cómo se relaciona la inteligencia artificial con la inteligencia empresarial?

¿Qué tan efectivo sería un Ai avanzado para determinar la habitabilidad de planetas distantes al mirar a través de todas las fotos espaciales de la NASA?