상호 정보 (2×2)

Core idea

Overview

상호 정보는 두 이산 확률 변수 사이에 공유되는 정보의 양을 측정하여 통계적 의존성을 정량화합니다. 2×2 분할표의 경우, 결합 확률 분포와 두 이진 변수의 주변 분포 곱 사이의 Kullback-Leibler 발산을 계산합니다.

When to use: 이 공식은 두 이진 변수 간의 관계를 분석할 때 적용하십시오. 예를 들어, 검사 결과와 질병 유무를 비교하는 경우입니다. 비선형 의존성이나 일반적인 통계적 연관성을 포착해야 할 때 선형 상관관계보다 선호됩니다.

Why it matters: 이는 통신 이론에서 채널 용량 계산과 머신 러닝에서 특징 선택을 위한 기본 개념입니다. 높은 상호 정보량은 한 변수의 상태를 알면 다른 변수에 대한 불확실성이 크게 줄어든다는 것을 나타냅니다.

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

2×2 결합표로부터의 상호 정보 유도

상호 정보는 모든 쌍에 대해 p(x,y) ln(p(x,y)/(p(x)p(y)))를 합산합니다.

결합 확률 p00, p01, p10, p11은 합이 1입니다.

1

정의로부터 시작합니다:

상호 정보는 X와 Y 간의 의존성을 정량화합니다.

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

2×2 표에서 주변 확률을 계산합니다:

비율 p(x,y)/(p(x)p(y))를 형성하려면 p(x)와 p(y)가 필요합니다.

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

네 항(p00, p01, p10, p11)을 합산합니다:

각각의 0이 아닌 결합 확률은 항에 기여합니다. 관례상 0·ln(0)=0입니다.

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

각 (x,y) 지점의 '높이'가 독립성으로부터의 편차를 나타내는 통계적 지형을 상상해 보십시오. 상호 정보는 각 조합이 발생하는 빈도로 가중된 이러한 편차의 총 '부피'입니다.

I(X;Y)

하나의 확률 변수(X)가 다른 변수(Y)에 대해 제공하는 정보의 양.

높은 값은 X를 알면 Y에 대한 불확실성이 크게 줄어듦(그 반대도 마찬가지)을 의미하며, 0은 통계적으로 독립적임을 의미합니다.

p(x,y)

변수 X에 대한 특정 결과 'x'와 변수 Y에 대한 특정 결과 'y'를 동시에 관찰할 결합 확률.

관측된 데이터에서 특정 상태 조합 (x,y)가 함께 발생하는 빈도.

p(x)p(y)

X가 결과 'x'를 취하고 Y가 결과 'y'를 취할 주변 확률의 곱으로, X와 Y가 통계적으로 독립적일 때의 결합 확률을 나타냅니다.

X와 Y 사이에 관계나 공유 정보가 없을 경우 조합 (x,y)의 기준 빈도.

ln \frac{p ( x , y )}{p ( x ) p ( y )}

독립 기대값에 비해 특정 (x,y) 쌍과 관련된 '정보 내용' 또는 '놀라움'을 내츠(nats) 단위로 나타낸 값.

특정 (x,y) 조합이 X와 Y가 관계없을 때보다 얼마나 더(또는 덜) 가능한지 측정합니다. 양수 값은 더 가능함을, 음수 값은 덜 가능함을 의미합니다.

\sum_{x, y}

X와 Y의 가능한 모든 이산적 결과에 대한 합산.

X와 Y의 모든 가능한 조합으로부터 정보 기여도를 집계하여 총 공유 정보를 계산합니다.

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: 자연 로그는 확률 비율을 가산적인 정보 측정값으로 변환합니다. 관측된 결합 확률 p(x,y)가 p(x)p(y)보다 크면 로그 항은 양수이고, 작으면 음수입니다.

Free study cues

Insight

Canonical usage

상호정보량은 통계적 의존성을 나타내는 무차원량입니다. 자연로그(ln)를 사용할 때는 관례적으로 '내트'로, 밑이 2인 로그(log2)를 사용할 때는 '비트'로 표현됩니다.

Dimension note

상호정보량은 확률의 비율로부터 계산되며, 확률 자체가 무차원이므로 본질적으로 무차원입니다.

One free problem

Practice Problem

연구자가 특정 유전자 돌연변이와 희귀 형질 사이의 연관성을 연구하고 있습니다. 완벽하게 균형 잡힌 모집단에서 결합 확률은 모두 동일합니다(각각 0.25). 상호 정보량을 계산하십시오.

Hint: 각 셀의 결합 확률이 해당 주변 확률의 곱과 같으면 변수는 독립적입니다.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

의료 검사 결과가 질병 상태에 대해 얼마나 정보를 제공하는지 정량화할 때, 상호 정보량(2×2)은 P(X=0,Y=0), P(X=0,Y=1), P(X=1,Y=0)로부터 상호 정보량을 계산하는 데 사용됩니다. 결과가 중요한 이유는 출력에 의존하기 전에 모델 동작, 알고리즘 비용 또는 예측 품질을 평가하는 데 도움이 되기 때문입니다.

Study smarter

Tips

시작하기 전에 결합확률(p00, p01, p10, p11)의 합이 정확히 1.0인지 확인하세요.
분할표의 행과 열을 합산하여 X와 Y의 주변확률을 계산하세요.
p(x,y)가 0인 항은 0으로 처리하세요. p가 0에 가까워질 때 p log(p)의 극한은 0이기 때문입니다.
자연로그(ln)를 사용하면 결과는 nats 단위이고, 밑이 2인 로그를 사용하면 bits 단위입니다.

Avoid these traps

Common Mistakes

확률 합이 1이 되도록 정규화하는 것을 잊는 것.
로그(ln과 log2)와 단위(nats와 bits)를 혼동하는 것.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

상호 정보는 모든 쌍에 대해 p(x,y) ln(p(x,y)/(p(x)p(y)))를 합산합니다.

이 공식은 두 이진 변수 간의 관계를 분석할 때 적용하십시오. 예를 들어, 검사 결과와 질병 유무를 비교하는 경우입니다. 비선형 의존성이나 일반적인 통계적 연관성을 포착해야 할 때 선형 상관관계보다 선호됩니다.

이는 통신 이론에서 채널 용량 계산과 머신 러닝에서 특징 선택을 위한 기본 개념입니다. 높은 상호 정보량은 한 변수의 상태를 알면 다른 변수에 대한 불확실성이 크게 줄어든다는 것을 나타냅니다.

확률 합이 1이 되도록 정규화하는 것을 잊는 것. 로그(ln과 log2)와 단위(nats와 bits)를 혼동하는 것.

의료 검사 결과가 질병 상태에 대해 얼마나 정보를 제공하는지 정량화할 때, 상호 정보량(2×2)은 P(X=0,Y=0), P(X=0,Y=1), P(X=1,Y=0)로부터 상호 정보량을 계산하는 데 사용됩니다. 결과가 중요한 이유는 출력에 의존하기 전에 모델 동작, 알고리즘 비용 또는 예측 품질을 평가하는 데 도움이 되기 때문입니다.

시작하기 전에 결합확률(p00, p01, p10, p11)의 합이 정확히 1.0인지 확인하세요. 분할표의 행과 열을 합산하여 X와 Y의 주변확률을 계산하세요. p(x,y)가 0인 항은 0으로 처리하세요. p가 0에 가까워질 때 p log(p)의 극한은 0이기 때문입니다. 자연로그(ln)를 사용하면 결과는 nats 단위이고, 밑이 2인 로그를 사용하면 bits 단위입니다.

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

정의로부터 시작합니다:

2×2 표에서 주변 확률을 계산합니다:

네 항(p00, p01, p10, p11)을 합산합니다:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources