Data & ComputingInformationstheorieUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Gegenseitige Information (2×2)

Mutual Information zwischen zwei binären Variablen aus gemeinsamen Wahrscheinlichkeiten.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

Mutual Information quantifiziert die statistische Abhängigkeit zwischen zwei diskreten Zufallsvariablen, indem sie misst, wie viel Information zwischen ihnen geteilt wird. Im 2×2-Kontingenzfall berechnet sie die Kullback-Leibler-Divergenz zwischen der gemeinsamen Wahrscheinlichkeitsverteilung und dem Produkt der Randverteilungen zweier binärer Variablen.

When to use: Wende diese Formel an, wenn du die Beziehung zwischen zwei binären Variablen analysierst, etwa beim Vergleich eines Testergebnisses mit dem Vorliegen einer Krankheit. Sie wird linearer Korrelation vorgezogen, wenn du nichtlineare Abhängigkeiten oder allgemeine statistische Zusammenhänge erfassen möchtest.

Why it matters: Sie ist ein grundlegendes Konzept in der Kommunikationstheorie zur Berechnung der Kanal-Kapazität und im maschinellen Lernen für Merkmalsselektion. Hohe Mutual Information zeigt an, dass das Wissen über den Zustand einer Variablen die Unsicherheit über die andere deutlich reduziert.

Symbols

Variables

I(X;Y) = Mutual Information, = P(X=0,Y=0), = P(X=0,Y=1), = P(X=1,Y=0), = P(X=1,Y=1)

I(X;Y)
Mutual Information
nats
P(X=0,Y=0)
Variable
P(X=0,Y=1)
Variable
P(X=1,Y=0)
Variable
P(X=1,Y=1)
Variable

Walkthrough

Derivation

Herleitung der Transinformation (Mutual Information) aus einer 2×2 Kontingenztabelle

Die Transinformation summiert p(x,y) ln(p(x,y)/(p(x)p(y))) über alle Paare.

  • X und Y sind binär.
  • Gemeinsame Wahrscheinlichkeiten p00, p01, p10, p11 ergeben in der Summe 1.
1

Beginnen Sie mit der Definition:

Die Transinformation quantifiziert die Abhängigkeit zwischen X und Y.

2

Berechnung der Marginalwahrscheinlichkeiten aus der 2×2 Tabelle:

Man benötigt p(x) und p(y), um das Verhältnis p(x,y)/(p(x)p(y)) zu bilden.

3

Summieren der vier Terme (p00, p01, p10, p11):

Jede gemeinsame Wahrscheinlichkeit ungleich Null trägt einen Term bei. Per Konvention gilt 0·ln(0)=0.

Result

Why it behaves this way

Intuition

Stellen Sie sich eine statistische Landschaft vor, in der die „Höhe“ an jedem (x,y)-Punkt die Abweichung von der Unabhängigkeit darstellt. Die gegenseitige Information ist das Gesamtvolumen dieser Abweichungen, gewichtet danach, wie häufig jede Kombination auftritt.

Term
Die Menge an Informationen, die eine Zufallsvariable (X) über eine andere (Y) liefert.
Ein hoher Wert bedeutet, dass die Kenntnis von X die Unsicherheit über Y erheblich verringert (und umgekehrt); Null bedeutet, dass sie statistisch unabhängig sind.
Term
Die gemeinsame Wahrscheinlichkeit, gleichzeitig ein bestimmtes Ergebnis „x“ für die Variable X und ein bestimmtes Ergebnis „y“ für die Variable Y zu beobachten.
Wie häufig eine bestimmte Kombination von Zuständen (x,y) in den beobachteten Daten zusammen auftritt.
Term
Das Produkt der Grenzwahrscheinlichkeiten, dass X das Ergebnis „x“ erhält und Y das Ergebnis „y“, was ihre gemeinsame Wahrscheinlichkeit darstellt, wenn X und Y statistisch unabhängig wären.
Die Grundhäufigkeit einer Kombination (x,y), wenn zwischen X und Y keine Beziehung oder gemeinsame Information besteht.
Term
Der „Informationsgehalt“ oder die „Überraschung“, die mit einem bestimmten (x,y)-Paar verbunden ist, relativ zur Unabhängigkeitserwartung, in Einheiten von Nats.
Misst, um wie viel wahrscheinlicher (oder weniger) eine bestimmte (x,y)-Kombination ist, als wenn X und Y nichts miteinander zu tun hätten. Ein positiver Wert bedeutet wahrscheinlicher, ein negativer Wert bedeutet weniger wahrscheinlich.
Term
Summierung über alle möglichen diskreten Ergebnisse für X und Y.
Aggregiert die Informationsbeiträge aus jeder möglichen Kombination von X und Y, um die gesamten gemeinsam genutzten Informationen zu berechnen.

Signs and relationships

  • \ln\frac{p(x,y)}{p(x)p(y)}: Der natürliche Logarithmus wandelt das Verhältnis der Wahrscheinlichkeiten in ein additives Informationsmaß um. Wenn die beobachtete gemeinsame Wahrscheinlichkeit p(x,y) größer als p(x)p(y) ist, ist der Log-Term positiv; ist er kleiner, ist der Term negativ.

Free study cues

Insight

Canonical usage

Gegenseitige Information ist eine dimensionslose Größe, die ein Maß für statistische Abhängigkeit darstellt. Sie wird konventionell in „Nats" angegeben, wenn der natürliche Logarithmus (ln) verwendet wird, oder in „Bits" bei Logarithmus zur Basis 2 (log2).

Dimension note

Gegenseitige Information ist von Natur aus dimensionslos, da sie aus Verhältnissen von Wahrscheinlichkeiten berechnet wird, die selbst dimensionslos sind.

One free problem

Practice Problem

Ein Forscher untersucht den Zusammenhang zwischen einer bestimmten Genmutation und einem seltenen Merkmal. In einer perfekt ausgeglichenen Population sind die gemeinsamen Wahrscheinlichkeiten alle gleich groß (jeweils 0.25). Berechne die Mutual Information.

Hint: Wenn die gemeinsame Wahrscheinlichkeit jeder Zelle gleich dem Produkt ihrer Randwahrscheinlichkeiten ist, sind die Variablen unabhängig.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Im Kontext von Quantifizieren, wie informativ ein medizinisches Testergebnis über den Krankheitsstatus ist wird Mutual Information (2×2) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Study smarter

Tips

  • Stelle sicher, dass die Summe der gemeinsamen Wahrscheinlichkeiten (p00, p01, p10, p11) vor dem Start genau 1.0 ergibt.
  • Berechne die Randwahrscheinlichkeiten für X und Y durch Summieren der Zeilen und Spalten der Kontingenztafel.
  • Behandle Terme, bei denen p(x,y) gleich null ist, als null, da der Grenzwert von p log(p) für p gegen null ebenfalls null ist.
  • Das Ergebnis wird in Nats gemessen, wenn der natürliche Logarithmus (ln) verwendet wird, oder in Bits bei Logarithmus zur Basis 2.

Avoid these traps

Common Mistakes

  • Vergessen, Wahrscheinlichkeiten auf eine Summe von 1 zu normalisieren.
  • Logarithmen (ln vs log2) und Einheiten (Nats vs Bits) mischen.

Common questions

Frequently Asked Questions

Die Transinformation summiert p(x,y) ln(p(x,y)/(p(x)p(y))) über alle Paare.

Wende diese Formel an, wenn du die Beziehung zwischen zwei binären Variablen analysierst, etwa beim Vergleich eines Testergebnisses mit dem Vorliegen einer Krankheit. Sie wird linearer Korrelation vorgezogen, wenn du nichtlineare Abhängigkeiten oder allgemeine statistische Zusammenhänge erfassen möchtest.

Sie ist ein grundlegendes Konzept in der Kommunikationstheorie zur Berechnung der Kanal-Kapazität und im maschinellen Lernen für Merkmalsselektion. Hohe Mutual Information zeigt an, dass das Wissen über den Zustand einer Variablen die Unsicherheit über die andere deutlich reduziert.

Vergessen, Wahrscheinlichkeiten auf eine Summe von 1 zu normalisieren. Logarithmen (ln vs log2) und Einheiten (Nats vs Bits) mischen.

Im Kontext von Quantifizieren, wie informativ ein medizinisches Testergebnis über den Krankheitsstatus ist wird Mutual Information (2×2) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Stelle sicher, dass die Summe der gemeinsamen Wahrscheinlichkeiten (p00, p01, p10, p11) vor dem Start genau 1.0 ergibt. Berechne die Randwahrscheinlichkeiten für X und Y durch Summieren der Zeilen und Spalten der Kontingenztafel. Behandle Terme, bei denen p(x,y) gleich null ist, als null, da der Grenzwert von p log(p) für p gegen null ebenfalls null ist. Das Ergebnis wird in Nats gemessen, wenn der natürliche Logarithmus (ln) verwendet wird, oder in Bits bei Logarithmus zur Basis 2.

References

Sources

  1. Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  2. Wikipedia: Mutual Information
  3. Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
  4. Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
  5. Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.