Information mutuelle (2×2)

Core idea

Overview

L'information mutuelle quantifie la dépendance statistique entre deux variables aléatoires discrètes en mesurant la quantité d'information partagée entre elles. Dans le cas d'un tableau de contingence 2×2, elle calcule la divergence de Kullback-Leibler entre la distribution de probabilité conjointe et le produit des distributions marginales de deux variables binaires.

When to use: Appliquez cette formule lorsque vous analysez la relation entre deux variables binaires, par exemple en comparant un résultat de test à la présence d'une maladie. Elle est préférable à la corrélation linéaire lorsque vous devez capturer des dépendances non linéaires ou une association statistique générale.

Why it matters: C'est un concept fondamental en théorie de la communication pour calculer la capacité d'un canal et en apprentissage automatique pour la sélection de caractéristiques. Une information mutuelle élevée indique que connaître l'état d'une variable réduit fortement l'incertitude sur l'autre.

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

Calcul de l'information mutuelle à partir d'un tableau joint 2×2

L'information mutuelle somme p(x,y) ln(p(x,y)/(p(x)p(y))) sur toutes les paires.

X et Y sont binaires.
Les probabilités jointes p00, p01, p10, p11 totalisent 1.

1

Partir de la définition :

L'information mutuelle quantifie la dépendance entre X et Y.

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

Calculer les marginales à partir du tableau 2×2 :

Vous avez besoin de p(x) et p(y) pour former le rapport p(x,y)/(p(x)p(y)).

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

Sommer les quatre termes (p00, p01, p10, p11) :

Chaque probabilité jointe non nulle apporte un terme. Par convention, 0·ln(0)=0.

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

Imaginez un paysage statistique où la « hauteur » en chaque point (x, y) représente l'écart par rapport à l'indépendance. L'information mutuelle est le « volume » total de ces écarts, pondéré par la fréquence à laquelle chaque combinaison se produit.

Term

La quantité d'informations qu'une variable aléatoire (X) fournit sur une autre (Y).

Une valeur élevée signifie que connaître X réduit considérablement l'incertitude sur Y (et vice versa) ; zéro signifie qu'ils sont statistiquement indépendants.

Term

La probabilité conjointe d'observer simultanément un résultat spécifique «x» pour la variable X et un résultat spécifique «y» pour la variable Y.

La fréquence à laquelle une combinaison particulière d'états (x, y) se produit ensemble dans les données observées.

Term

Le produit des probabilités marginales que X prenne le résultat «x» et que Y prenne le résultat «y», représentant leur probabilité conjointe si X et Y étaient statistiquement indépendant.

La fréquence de base d'une combinaison (x, y) s'il n'y avait pas de relation ou d'informations partagées entre X et Y.

Term

Le « contenu d'information » ou la « surprise » associée à une paire spécifique (x, y), par rapport à l'attente d'indépendance, en unités de nats.

Mesure la probabilité qu'une combinaison spécifique (x, y) soit plus (ou moins) probable que si X et Y n'étaient pas liés. Une valeur positive signifie plus probable, une valeur négative signifie moins probable.

Term

Somme de tous les résultats discrets possibles pour X et Y.

Agrège les contributions d'informations de chaque combinaison possible de X et Y pour calculer l'information totale partagée.

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: Le logarithme népérien transforme le rapport des probabilités en une mesure additive d'information. Si la probabilité conjointe observée p(x,y) est supérieure à p(x)p(y), le terme logarithmique est positif ; s'il est plus petit, le terme est négatif.

Free study cues

Insight

Canonical usage

L'information mutuelle est une quantité sans dimension, représentant une mesure de dépendance statistique. Elle est conventionnellement exprimée en « nats » lorsque le logarithme naturel (ln) est utilisé, ou en « bits » lorsque le logarithme en base 2 (log2)

Dimension note

L'information mutuelle est intrinsèquement sans dimension car elle est calculée à partir de ratios de probabilités, qui sont elles-mêmes sans dimension.

One free problem

Practice Problem

Un chercheur étudie le lien entre une mutation génétique spécifique et un trait rare. Dans une population parfaitement équilibrée, les probabilités conjointes sont toutes égales (0.25 chacune). Calculez l'information mutuelle.

Hint: Si la probabilité conjointe de каждой case est égale au produit de ses probabilités marginales, alors les variables sont indépendantes.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Dans le contexte de Quantifier à quel point le résultat d'un test médical est informatif sur l'état de la maladie, Information mutuelle (2×2) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Study smarter

Tips

Assurez-vous que la somme des probabilités conjointes (p00, p01, p10, p11) vaut exactement 1.0 avant de commencer.
Calculez les probabilités marginales de X et Y en additionnant les lignes et les colonnes du tableau de contingence.
Considérez comme nuls les termes pour lesquels p(x,y) vaut zéro, car la limite de p log(p) lorsque p tend vers zéro vaut zéro.
Le résultat est mesuré en nats lorsqu'on utilise le logarithme naturel (ln) ou en bits lorsqu'on utilise le logarithme en base 2.

Avoid these traps

Common Mistakes

Oublier de normaliser les probabilités pour que leur somme fasse 1.
Mélanger les logarithmes (ln vs log2) et les unités (nats vs bits).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

L'information mutuelle somme p(x,y) ln(p(x,y)/(p(x)p(y))) sur toutes les paires.

Appliquez cette formule lorsque vous analysez la relation entre deux variables binaires, par exemple en comparant un résultat de test à la présence d'une maladie. Elle est préférable à la corrélation linéaire lorsque vous devez capturer des dépendances non linéaires ou une association statistique générale.

C'est un concept fondamental en théorie de la communication pour calculer la capacité d'un canal et en apprentissage automatique pour la sélection de caractéristiques. Une information mutuelle élevée indique que connaître l'état d'une variable réduit fortement l'incertitude sur l'autre.

Oublier de normaliser les probabilités pour que leur somme fasse 1. Mélanger les logarithmes (ln vs log2) et les unités (nats vs bits).

Dans le contexte de Quantifier à quel point le résultat d'un test médical est informatif sur l'état de la maladie, Information mutuelle (2×2) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Assurez-vous que la somme des probabilités conjointes (p00, p01, p10, p11) vaut exactement 1.0 avant de commencer. Calculez les probabilités marginales de X et Y en additionnant les lignes et les colonnes du tableau de contingence. Considérez comme nuls les termes pour lesquels p(x,y) vaut zéro, car la limite de p log(p) lorsque p tend vers zéro vaut zéro. Le résultat est mesuré en nats lorsqu'on utilise le logarithme naturel (ln) ou en bits lorsqu'on utilise le logarithme en base 2.

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

Partir de la définition :

Calculer les marginales à partir du tableau 2×2 :

Sommer les quatre termes (p00, p01, p10, p11) :

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources