Data & ComputingThéorie de l'informationUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Divergence de KL (Bernoulli)

D_KL(p||q) pour des distributions de Bernoulli.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

La divergence de KL de Bernoulli mesure l'entropie relative entre deux distributions de Bernoulli, en quantifiant l'information perdue lorsque la distribution q est utilisée pour approximer la distribution p. C'est une mesure non symétrique qui caractérise la distance statistique entre deux résultats binaires au sein d'un espace de probabilité partagé.

When to use: Cette équation est essentielle lors de l'évaluation des performances de classificateurs binaires ou lorsque vous comparez un modèle théorique à des fréquences binaires observées. Elle est fréquemment appliquée en apprentissage automatique comme composante de fonctions de perte telles que l'entropie croisée binaire et dans le contexte de la sélection de modèles fondée sur la théorie de l'information.

Why it matters: Elle fournit un moyen rigoureux de mesurer la « surprise » ou le coût supplémentaire engendré lorsqu'on suppose un ensemble de probabilités alors que la réalité est différente. En pratique, minimiser cette divergence optimise la transmission des données et garantit que les modèles prédictifs soient aussi proches que possible du véritable processus générateur des données.

Symbols

Variables

= KL Divergence, p = True Probability, q = Model Probability

KL Divergence
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

Démonstration de la divergence KL pour les variables de Bernoulli

La divergence KL mesure l'inadéquation entre la probabilité réelle p et la probabilité du modèle q.

  • Variable binaire X∈{0,1}.
  • Distribution réelle : P(X=1)=p.
  • Distribution du modèle : Q(X=1)=q.
1

Partir de la définition de la divergence KL :

La KL est une espérance du log-ratio des probabilités.

2

Écrire les probabilités pour X=1 et X=0 :

Les distributions de Bernoulli sont déterminées par leurs probabilités de succès.

3

Développer l'espérance :

Il s'agit de la forme fermée standard pour la divergence KL de Bernoulli.

Result

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

Imaginez deux diagrammes à barres distincts, chacun représentant une distribution de Bernoulli avec deux barres (succès et échec). La divergence KL quantifie l'« espace supplémentaire » ou la « distance » nécessaire pour décrire le premier diagramme à barres en utilisant

Term
La probabilité réelle du résultat « succès » pour la distribution de Bernoulli de référence.
Il s'agit de la probabilité réelle qu'un événement se produise, telle qu'observée ou connue à partir du véritable processus de génération de données.
Term
La probabilité prédite ou approximative du résultat « succès » pour la distribution de Bernoulli du modèle.
Il s'agit de l'estimation ou de l'hypothèse de notre modèle pour la probabilité du même événement.
Term
La divergence de Kullback-Leibler (KL) entre la distribution réelle 'p' et la distribution approximative 'q'.
Il s'agit de la « perte d'information » totale ou de l'« entropie relative » lorsque nous utilisons les probabilités de 'q' pour décrire les résultats qui suivent réellement 'p'. Une valeur plus élevée signifie que 'q' est une moins bonne approximation de 'p'.
Term
La contribution à la divergence totale du résultat « succès ».
Ce terme quantifie la « surprise » ou l'écart d'information lorsque la probabilité réelle de succès est 'p' mais que nous attendions 'q', pondérée par la fréquence à laquelle 'p' se produit réellement.
Term
La contribution à la divergence totale du résultat « échec ».
Similaire au terme de succès, celui-ci mesure la « surprise » ou l'écart d'information pour le résultat « échec », pondéré par sa probabilité réelle '1-p'.

Signs and relationships

  • \ln: La fonction logarithmique transforme les rapports de probabilités en unités d'information (nats, pour le logarithme népérien). Sa propriété garantit que les termes `p\ln(p/q)` et `(1-p)((1-p)/(1-q))` sont toujours non négatifs
  • p: Les probabilités réelles 'p' et '(1-p)' agissent comme facteurs de pondération. Elles garantissent que l'écart d'information pour chaque résultat (succès ou échec)
  • +: Les deux termes sont additionnés pour prendre en compte l'écart d'information total attendu sur les deux résultats possibles (succès et échec)

Free study cues

Insight

Canonical usage

La divergence KL est une quantité sans dimension, souvent exprimée en « nats » ou en « bits » selon la base du logarithme utilisé, mais représente fondamentalement une mesure d'information sans unité.

Dimension note

The KL divergence is inherently dimensionless as it is calculated from probabilities, which are themselves dimensionless ratios. While 'nats' or 'bits' are often used to denote the unit of information, these are not physical units.

One free problem

Practice Problem

On sait qu'une pièce a une vraie probabilité p = 0.5 de tomber sur face. Si un chercheur modélise cette pièce avec une probabilité estimée q = 0.2, calculez la divergence de KL résultante en nats.

Hint: Remplacez les valeurs dans la formule en utilisant des logarithmes naturels pour les deux termes p/q et (1-p)/(1-q).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Dans le contexte de Quantifier à quel point la probabilité prédite par un modèle diffère de la réalité, Divergence de KL (Bernoulli) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Study smarter

Tips

  • Assurez-vous que les valeurs de p et q restent strictement comprises entre 0 et 1 pour éviter les logarithmes naturels de zéro ou de l'infini.
  • Rappelez-vous que D(p||q) n'est pas égal à D(q||p) ; l'ordre représente la direction allant de la vérité p vers le modèle q.
  • Une divergence de 0 implique toujours que les deux distributions sont parfaitement identiques.

Avoid these traps

Common Mistakes

  • Inverser p et q (cela change la valeur).
  • Supposer que KL est une distance métrique (elle n'est pas symétrique).

Common questions

Frequently Asked Questions

La divergence KL mesure l'inadéquation entre la probabilité réelle p et la probabilité du modèle q.

Cette équation est essentielle lors de l'évaluation des performances de classificateurs binaires ou lorsque vous comparez un modèle théorique à des fréquences binaires observées. Elle est fréquemment appliquée en apprentissage automatique comme composante de fonctions de perte telles que l'entropie croisée binaire et dans le contexte de la sélection de modèles fondée sur la théorie de l'information.

Elle fournit un moyen rigoureux de mesurer la « surprise » ou le coût supplémentaire engendré lorsqu'on suppose un ensemble de probabilités alors que la réalité est différente. En pratique, minimiser cette divergence optimise la transmission des données et garantit que les modèles prédictifs soient aussi proches que possible du véritable processus générateur des données.

Inverser p et q (cela change la valeur). Supposer que KL est une distance métrique (elle n'est pas symétrique).

Dans le contexte de Quantifier à quel point la probabilité prédite par un modèle diffère de la réalité, Divergence de KL (Bernoulli) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Assurez-vous que les valeurs de p et q restent strictement comprises entre 0 et 1 pour éviter les logarithmes naturels de zéro ou de l'infini. Rappelez-vous que D(p||q) n'est pas égal à D(q||p) ; l'ordre représente la direction allant de la vérité p vers le modèle q. Une divergence de 0 implique toujours que les deux distributions sont parfaitement identiques.

References

Sources

  1. Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Wikipedia: Kullback-Leibler divergence
  4. Cover and Thomas, Elements of Information Theory, 2nd ed.
  5. Wikipedia: Bernoulli distribution
  6. IUPAC Gold Book: relative entropy
  7. Cover and Thomas Elements of Information Theory