Gegenseitige Information (2×2)

Core idea

Overview

Mutual Information quantifiziert die statistische Abhängigkeit zwischen zwei diskreten Zufallsvariablen, indem sie misst, wie viel Information zwischen ihnen geteilt wird. Im 2×2-Kontingenzfall berechnet sie die Kullback-Leibler-Divergenz zwischen der gemeinsamen Wahrscheinlichkeitsverteilung und dem Produkt der Randverteilungen zweier binärer Variablen.

When to use: Wende diese Formel an, wenn du die Beziehung zwischen zwei binären Variablen analysierst, etwa beim Vergleich eines Testergebnisses mit dem Vorliegen einer Krankheit. Sie wird linearer Korrelation vorgezogen, wenn du nichtlineare Abhängigkeiten oder allgemeine statistische Zusammenhänge erfassen möchtest.

Why it matters: Sie ist ein grundlegendes Konzept in der Kommunikationstheorie zur Berechnung der Kanal-Kapazität und im maschinellen Lernen für Merkmalsselektion. Hohe Mutual Information zeigt an, dass das Wissen über den Zustand einer Variablen die Unsicherheit über die andere deutlich reduziert.

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

Herleitung der Transinformation (Mutual Information) aus einer 2×2 Kontingenztabelle

Die Transinformation summiert p(x,y) ln(p(x,y)/(p(x)p(y))) über alle Paare.

X und Y sind binär.
Gemeinsame Wahrscheinlichkeiten p00, p01, p10, p11 ergeben in der Summe 1.

1

Beginnen Sie mit der Definition:

Die Transinformation quantifiziert die Abhängigkeit zwischen X und Y.

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

Berechnung der Marginalwahrscheinlichkeiten aus der 2×2 Tabelle:

Man benötigt p(x) und p(y), um das Verhältnis p(x,y)/(p(x)p(y)) zu bilden.

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

Summieren der vier Terme (p00, p01, p10, p11):

Jede gemeinsame Wahrscheinlichkeit ungleich Null trägt einen Term bei. Per Konvention gilt 0·ln(0)=0.

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

Stellen Sie sich eine statistische Landschaft vor, in der die „Höhe“ an jedem (x,y)-Punkt die Abweichung von der Unabhängigkeit darstellt. Die gegenseitige Information ist das Gesamtvolumen dieser Abweichungen, gewichtet danach, wie häufig jede Kombination auftritt.

Term

Die Menge an Informationen, die eine Zufallsvariable (X) über eine andere (Y) liefert.

Ein hoher Wert bedeutet, dass die Kenntnis von X die Unsicherheit über Y erheblich verringert (und umgekehrt); Null bedeutet, dass sie statistisch unabhängig sind.

Term

Die gemeinsame Wahrscheinlichkeit, gleichzeitig ein bestimmtes Ergebnis „x“ für die Variable X und ein bestimmtes Ergebnis „y“ für die Variable Y zu beobachten.

Wie häufig eine bestimmte Kombination von Zuständen (x,y) in den beobachteten Daten zusammen auftritt.

Term

Das Produkt der Grenzwahrscheinlichkeiten, dass X das Ergebnis „x“ erhält und Y das Ergebnis „y“, was ihre gemeinsame Wahrscheinlichkeit darstellt, wenn X und Y statistisch unabhängig wären.

Die Grundhäufigkeit einer Kombination (x,y), wenn zwischen X und Y keine Beziehung oder gemeinsame Information besteht.

Term

Der „Informationsgehalt“ oder die „Überraschung“, die mit einem bestimmten (x,y)-Paar verbunden ist, relativ zur Unabhängigkeitserwartung, in Einheiten von Nats.

Misst, um wie viel wahrscheinlicher (oder weniger) eine bestimmte (x,y)-Kombination ist, als wenn X und Y nichts miteinander zu tun hätten. Ein positiver Wert bedeutet wahrscheinlicher, ein negativer Wert bedeutet weniger wahrscheinlich.

Term

Summierung über alle möglichen diskreten Ergebnisse für X und Y.

Aggregiert die Informationsbeiträge aus jeder möglichen Kombination von X und Y, um die gesamten gemeinsam genutzten Informationen zu berechnen.

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: Der natürliche Logarithmus wandelt das Verhältnis der Wahrscheinlichkeiten in ein additives Informationsmaß um. Wenn die beobachtete gemeinsame Wahrscheinlichkeit p(x,y) größer als p(x)p(y) ist, ist der Log-Term positiv; ist er kleiner, ist der Term negativ.

Free study cues

Insight

Canonical usage

Gegenseitige Information ist eine dimensionslose Größe, die ein Maß für statistische Abhängigkeit darstellt. Sie wird konventionell in „Nats" angegeben, wenn der natürliche Logarithmus (ln) verwendet wird, oder in „Bits" bei Logarithmus zur Basis 2 (log2).

Dimension note

Gegenseitige Information ist von Natur aus dimensionslos, da sie aus Verhältnissen von Wahrscheinlichkeiten berechnet wird, die selbst dimensionslos sind.

One free problem

Practice Problem

Ein Forscher untersucht den Zusammenhang zwischen einer bestimmten Genmutation und einem seltenen Merkmal. In einer perfekt ausgeglichenen Population sind die gemeinsamen Wahrscheinlichkeiten alle gleich groß (jeweils 0.25). Berechne die Mutual Information.

Hint: Wenn die gemeinsame Wahrscheinlichkeit jeder Zelle gleich dem Produkt ihrer Randwahrscheinlichkeiten ist, sind die Variablen unabhängig.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Im Kontext von Quantifizieren, wie informativ ein medizinisches Testergebnis über den Krankheitsstatus ist wird Mutual Information (2×2) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Study smarter

Tips

Stelle sicher, dass die Summe der gemeinsamen Wahrscheinlichkeiten (p00, p01, p10, p11) vor dem Start genau 1.0 ergibt.
Berechne die Randwahrscheinlichkeiten für X und Y durch Summieren der Zeilen und Spalten der Kontingenztafel.
Behandle Terme, bei denen p(x,y) gleich null ist, als null, da der Grenzwert von p log(p) für p gegen null ebenfalls null ist.
Das Ergebnis wird in Nats gemessen, wenn der natürliche Logarithmus (ln) verwendet wird, oder in Bits bei Logarithmus zur Basis 2.

Avoid these traps

Common Mistakes

Vergessen, Wahrscheinlichkeiten auf eine Summe von 1 zu normalisieren.
Logarithmen (ln vs log2) und Einheiten (Nats vs Bits) mischen.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Die Transinformation summiert p(x,y) ln(p(x,y)/(p(x)p(y))) über alle Paare.

Wende diese Formel an, wenn du die Beziehung zwischen zwei binären Variablen analysierst, etwa beim Vergleich eines Testergebnisses mit dem Vorliegen einer Krankheit. Sie wird linearer Korrelation vorgezogen, wenn du nichtlineare Abhängigkeiten oder allgemeine statistische Zusammenhänge erfassen möchtest.

Sie ist ein grundlegendes Konzept in der Kommunikationstheorie zur Berechnung der Kanal-Kapazität und im maschinellen Lernen für Merkmalsselektion. Hohe Mutual Information zeigt an, dass das Wissen über den Zustand einer Variablen die Unsicherheit über die andere deutlich reduziert.

Vergessen, Wahrscheinlichkeiten auf eine Summe von 1 zu normalisieren. Logarithmen (ln vs log2) und Einheiten (Nats vs Bits) mischen.

Im Kontext von Quantifizieren, wie informativ ein medizinisches Testergebnis über den Krankheitsstatus ist wird Mutual Information (2×2) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Stelle sicher, dass die Summe der gemeinsamen Wahrscheinlichkeiten (p00, p01, p10, p11) vor dem Start genau 1.0 ergibt. Berechne die Randwahrscheinlichkeiten für X und Y durch Summieren der Zeilen und Spalten der Kontingenztafel. Behandle Terme, bei denen p(x,y) gleich null ist, als null, da der Grenzwert von p log(p) für p gegen null ebenfalls null ist. Das Ergebnis wird in Nats gemessen, wenn der natürliche Logarithmus (ln) verwendet wird, oder in Bits bei Logarithmus zur Basis 2.

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

Beginnen Sie mit der Definition:

Berechnung der Marginalwahrscheinlichkeiten aus der 2×2 Tabelle:

Summieren der vier Terme (p00, p01, p10, p11):

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources