Creo que las respuestas anteriores dan una buena comprensión de la divergencia KL y ML. En el aprendizaje automático, una de las técnicas más utilizadas es la estimación de máxima verosimilitud, que básicamente trata de aprender los parámetros que maximizan la verosimilitud o la verosimilitud condicional. Esta es, por ejemplo, una técnica muy común y la forma en que uno aprende en Regresión logística, por ejemplo.
La divergencia de KL es una “distancia” entre las distribuciones de probabilidad, y mide la diferencia entre dos distribuciones de probabilidad. A diferencia de la mayoría de las distancias (como la distancia euclidiana), la divergencia KL no es simétrica.
Ahora, de manera interesante, la probabilidad máxima es equivalente a encontrar una distribución que tenga la menor divergencia de KL con respecto a la distribución subyacente verdadera. En efecto, estamos tratando de lograr un conjunto de parámetros, de modo que el modelo de probabilidad aprendido (por supuesto, esto tendrá sentido solo para clasificadores probabilísticos) esté más cerca de la verdadera distribución de probabilidad subyacente de los datos.
- Cómo aprender a alimentar las redes neuronales
- ¿Todos los algoritmos de ajuste de curvas utilizan alguna forma de aprendizaje automático? ¿En qué se diferencian de la retropropagación de la red neuronal artificial?
- ¿Son las computadoras reales idénticas a las máquinas de Turing?
- Según las leyes de robótica de Isaac Asimov, "los robots no pueden dañar a los humanos". Entonces, ¿por qué se permiten robots en el ejército?
- ¿Por qué todos están interesados en las redes neuronales profundas ahora cuando otros sistemas de inteligencia artificial como las máquinas LISP fueron promocionados y no pudieron obtener una gran adopción en el pasado?