相互情報量(2×2)

Core idea

Overview

相互情報量は、2つの離散確率変数間で共有される情報の量を測定することにより、それらの統計的依存性を定量化します。2×2分割表の場合、結合確率分布と2つの二値変数の周辺分布の積の間のカルバック・ライブラーダイバージェンスを計算します。

When to use: テスト結果と疾患の有無を比較するなど、二値変数間の関係を分析する場合にこの式を適用します。非線形依存関係や一般的な統計的関連性を捉える必要がある場合、線形相関よりも好まれます。

Why it matters: これは、通信理論におけるチャネル容量の計算や、機械学習における特徴選択の基礎となる概念です。高い相互情報量は、一方の変数の状態を知ることで、他方の変数に関する不確実性が大幅に減少することを示します。

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

2×2 同時テーブルからの相互情報量の導出

相互情報量は、すべてのペアにわたって p(x,y) ln(p(x,y)/(p(x)p(y))) を合計します。

同時確率 p00,p01,p10,p11 は合計して 1 になります。

1

定義から始める:

相互情報量は X と Y の間の依存関係を定量化します。

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

2×2 テーブルから周辺確率を計算します:

比率 p(x,y)/(p(x)p(y)) を形成するには p(x) と p(y) が必要です。

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

4 つの項 (p00, p01, p10, p11) を合計します:

ゼロでない同時確率はそれぞれ項に寄与します。慣例により、0·ln(0)=0 とします。

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

各 (x,y) 点における「高さ」が独立性からの偏差を表す統計的な風景を想像してください。相互情報量は、各組み合わせが発生する頻度で重み付けされた、これらの偏差の総「体積」です。

I(X;Y)

ある確率変数 (X) が別の確率変数 (Y) について提供する情報量。

高い値は、X を知ることで Y に関する不確実性が大幅に減少することを意味し(逆も同様)、ゼロはそれらが統計的に独立であることを意味します。

p(x,y)

変数 X の特定の結果 'x' と変数 Y の特定の結果 'y' を同時に観測する同時確率。

観測データにおいて、特定の状態の組み合わせ(x,y)が一緒に発生する頻度。

p(x)p(y)

Xが結果xをとる周辺確率とYが結果yをとる周辺確率の積であり、XとYが統計的に独立である場合のそれらの同時確率を表す。

XとYの間に関係や共有情報がない場合の組み合わせ(x,y)のベースライン頻度。

ln \frac{p ( x , y )}{p ( x ) p ( y )}

特定の(x,y)ペアに関連する、独立性の期待値に対する「情報量」または「驚き」、単位はナット。

特定の(x,y)の組み合わせが、XとYが無関係である場合よりもどれだけ起こりやすいか(または起こりにくいか)を測定する。正の値はより起こりやすいことを、負の値はより起こりにくいことを意味する。

\sum_{x, y}

XとYのすべての可能な離散的な結果にわたる総和。

XとYのすべての可能な組み合わせからの情報寄与を集約して、総共有情報を計算する。

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: 自然対数は確率の比を情報の加法尺度に変換する。観測された同時確率p(x,y)がp(x)p(y)より大きい場合、対数項は正になる。小さい場合は負になる。

Free study cues

Insight

Canonical usage

相互情報量は無次元量であり、統計的依存関係の尺度を表します。自然対数（ln）が使用される場合は慣例的に「ナット」で、底が2の対数（log2）が使用される場合は「ビット」で表されます

Dimension note

相互情報量は、確率の比から計算されるため本質的に無次元です。確率自体が無次元です。

One free problem

Practice Problem

研究者が特定の遺伝子変異と稀な形質との関連を研究しています。完全にバランスの取れた集団では、同時確率はすべて等しく（各0.25）です。相互情報量を計算してください。

Hint: すべてのセルの同時確率がその周辺確率の積に等しい場合、変数は独立です。

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

医療検査結果が疾患の状態についてどれだけ有益かを定量化する際に、相互情報量（2×2）は、P(X=0,Y=0)、P(X=0,Y=1)、P(X=1,Y=0)から相互情報量を計算するために使用されます。この結果は、出力に依存する前に、モデルの振る舞い、アルゴリズムのコスト、または予測品質を評価するのに役立つため重要です。

Study smarter

Tips

開始前に、同時確率（p00, p01, p10, p11）の合計が正確に 1.0 であることを確認してください。
分割表の行と列を合計して、X と Y の周辺確率を計算してください。
p(x,y) が 0 の項は 0 として扱ってください。p が 0 に近づくときの p log(p) の極限は 0 だからです。
自然対数（ln）を使う場合、結果は nats で測定され、底 2 の対数を使う場合は bits で測定されます。

Avoid these traps

Common Mistakes

確率の合計が 1 になるよう正規化し忘れること。
対数（ln と log2）と単位（nats と bits）を混在させること。

Keep going

Related Formulas

Common questions

Frequently Asked Questions

相互情報量は、すべてのペアにわたって p(x,y) ln(p(x,y)/(p(x)p(y))) を合計します。

テスト結果と疾患の有無を比較するなど、二値変数間の関係を分析する場合にこの式を適用します。非線形依存関係や一般的な統計的関連性を捉える必要がある場合、線形相関よりも好まれます。

これは、通信理論におけるチャネル容量の計算や、機械学習における特徴選択の基礎となる概念です。高い相互情報量は、一方の変数の状態を知ることで、他方の変数に関する不確実性が大幅に減少することを示します。

確率の合計が 1 になるよう正規化し忘れること。対数（ln と log2）と単位（nats と bits）を混在させること。

医療検査結果が疾患の状態についてどれだけ有益かを定量化する際に、相互情報量（2×2）は、P(X=0,Y=0)、P(X=0,Y=1)、P(X=1,Y=0)から相互情報量を計算するために使用されます。この結果は、出力に依存する前に、モデルの振る舞い、アルゴリズムのコスト、または予測品質を評価するのに役立つため重要です。

開始前に、同時確率（p00, p01, p10, p11）の合計が正確に 1.0 であることを確認してください。分割表の行と列を合計して、X と Y の周辺確率を計算してください。 p(x,y) が 0 の項は 0 として扱ってください。p が 0 に近づくときの p log(p) の極限は 0 だからです。自然対数（ln）を使う場合、結果は nats で測定され、底 2 の対数を使う場合は bits で測定されます。

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

定義から始める:

2×2 テーブルから周辺確率を計算します:

4 つの項 (p00, p01, p10, p11) を合計します:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources