¿Por qué la minimización de la divergencia de KL ayuda en la convergencia de algoritmos de aprendizaje automático?

Creo que las respuestas anteriores dan una buena comprensión de la divergencia KL y ML. En el aprendizaje automático, una de las técnicas más utilizadas es la estimación de máxima verosimilitud, que básicamente trata de aprender los parámetros que maximizan la verosimilitud o la verosimilitud condicional. Esta es, por ejemplo, una técnica muy común y la forma en que uno aprende en Regresión logística, por ejemplo.

La divergencia de KL es una “distancia” entre las distribuciones de probabilidad, y mide la diferencia entre dos distribuciones de probabilidad. A diferencia de la mayoría de las distancias (como la distancia euclidiana), la divergencia KL no es simétrica.

Ahora, de manera interesante, la probabilidad máxima es equivalente a encontrar una distribución que tenga la menor divergencia de KL con respecto a la distribución subyacente verdadera. En efecto, estamos tratando de lograr un conjunto de parámetros, de modo que el modelo de probabilidad aprendido (por supuesto, esto tendrá sentido solo para clasificadores probabilísticos) esté más cerca de la verdadera distribución de probabilidad subyacente de los datos.

AlgoritmosAprendizaje automáticoClasificacióninformáticaInteligencia Artificial

¿Puede una red neuronal aprender a modificar eficientemente su propia arquitectura para mejorar la precisión?

¿Está loco Ray Kurzweil?

¿Qué plan de matemáticas debería elegir en la universidad que mejor se prepare para el aprendizaje automático en la escuela de posgrado?

¿Cuál es el mejor libro o recurso para aprender sobre las redes neuronales y las redes neuronales profundas?

¿Qué es incrustar en Machine Learning? ¿Podría dar un ejemplo / explicación simple?

¿Es cierto que no debemos tomar la inteligencia como evangelio?

JQ mencionó qué es la divergencia de kl y supongo que sabes lo que es, así que voy a omitir la definición y entender por qué la usamos en el aprendizaje automático.

Imagine las salidas de un clasificador de 1000 clases, siendo cada clase una salida de probabilidad de confianza. Formarían una distribución de probabilidad. Ahora imagine que tiene una distribución de probabilidad “perfecta”, que son las etiquetas de entrenamiento de la verdad básica. Minimizar la divergencia kl le permitirá entrenar la red.

Nota: di un ejemplo con un clasificador discriminativo. En la práctica, los clasificadores rara vez se entrenan a través de la divergencia kl. Un ejemplo de uno que se entrena a través de la divergencia kl son los modelos generativos.

Rishabh Iyer

La divergencia Kullback-Liebler mide la “distancia” entre las distribuciones de probabilidad. La palabra distancia se cita ya que técnicamente no es una métrica y, por lo tanto, no es una distancia matemática. Sin embargo, en muchos casos, es más útil, ya que hay una distribución de referencia, P, y otra distribución, Q, y estamos tratando de descubrir cuánto perdemos usando Q en lugar de P. Aparece un mucho en la teoría de la información, donde P es la verdadera distribución del mensaje y Q es la que estamos usando para aproximarlo.

En el aprendizaje automático, es muy, muy útil, y no solo para mejorar la convergencia. Por ejemplo, imagine que tenemos una visión bayesiana de las cosas y queremos medir el efecto de los datos y la probabilidad en nuestro previo (cuando lo convierten en posterior). Los métodos bayesianos variacionales minimizan la divergencia KL de nuestro fácil trabajar con Q y el mucho más difícil de tratar con el posterior.

Sin saber su pregunta específica (es decir, de qué algoritmo está hablando), la dejaré allí. Si desea actualizar la pregunta, deje un comentario a esta respuesta y la actualizaré si tengo tiempo.

JQ Veenstra

More Interesting

Tengo un conjunto de artículos de noticias, ¿cómo puedo determinar cuáles de ellos están hablando del mismo incidente utilizando técnicas de aprendizaje automático / aprendizaje profundo?

¿Qué porcentaje de trabajos serán reemplazados por IA y robots?

¿Cómo se puede evaluar la inteligencia?

¿Cómo se siente Karen Kolkey sobre la realidad virtual?

¿Qué tareas hacen mal las computadoras?

Cómo preparar a mis hijos para 2030 y en adelante cuando la IA está reemplazando a los humanos

Si los robots están reemplazando a los humanos, ¿necesitamos el crecimiento de la población para impulsar el crecimiento económico?

¿Qué problemas han demostrado que las computadoras no pueden resolver, pero que los humanos pueden resolver?

¿Los bots de IA están estafando el póker y los casinos en línea mientras pueden pasar desapercibidos?

¿Cuáles son las mejores cosas que ha hecho IBM Watson?