상호 정보 (2×2)
결합 확률로부터 두 이진 변수 간의 상호 정보.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
상호 정보는 두 이산 확률 변수 사이에 공유되는 정보의 양을 측정하여 통계적 의존성을 정량화합니다. 2×2 분할표의 경우, 결합 확률 분포와 두 이진 변수의 주변 분포 곱 사이의 Kullback-Leibler 발산을 계산합니다.
When to use: 이 공식은 두 이진 변수 간의 관계를 분석할 때 적용하십시오. 예를 들어, 검사 결과와 질병 유무를 비교하는 경우입니다. 비선형 의존성이나 일반적인 통계적 연관성을 포착해야 할 때 선형 상관관계보다 선호됩니다.
Why it matters: 이는 통신 이론에서 채널 용량 계산과 머신 러닝에서 특징 선택을 위한 기본 개념입니다. 높은 상호 정보량은 한 변수의 상태를 알면 다른 변수에 대한 불확실성이 크게 줄어든다는 것을 나타냅니다.
Symbols
Variables
I(X;Y) = Mutual Information, = P(X=0,Y=0), = P(X=0,Y=1), = P(X=1,Y=0), = P(X=1,Y=1)
Walkthrough
Derivation
2×2 결합표로부터의 상호 정보 유도
상호 정보는 모든 쌍에 대해 p(x,y) ln(p(x,y)/(p(x)p(y)))를 합산합니다.
- 결합 확률 p00, p01, p10, p11은 합이 1입니다.
정의로부터 시작합니다:
상호 정보는 X와 Y 간의 의존성을 정량화합니다.
2×2 표에서 주변 확률을 계산합니다:
비율 p(x,y)/(p(x)p(y))를 형성하려면 p(x)와 p(y)가 필요합니다.
네 항(p00, p01, p10, p11)을 합산합니다:
각각의 0이 아닌 결합 확률은 항에 기여합니다. 관례상 0·ln(0)=0입니다.
Result
Why it behaves this way
Intuition
각 (x,y) 지점의 '높이'가 독립성으로부터의 편차를 나타내는 통계적 지형을 상상해 보십시오. 상호 정보는 각 조합이 발생하는 빈도로 가중된 이러한 편차의 총 '부피'입니다.
Signs and relationships
- \ln\frac{p(x,y)}{p(x)p(y)}: 자연 로그는 확률 비율을 가산적인 정보 측정값으로 변환합니다. 관측된 결합 확률 p(x,y)가 p(x)p(y)보다 크면 로그 항은 양수이고, 작으면 음수입니다.
Free study cues
Insight
Canonical usage
상호정보량은 통계적 의존성을 나타내는 무차원량입니다. 자연로그(ln)를 사용할 때는 관례적으로 '내트'로, 밑이 2인 로그(log2)를 사용할 때는 '비트'로 표현됩니다.
Dimension note
상호정보량은 확률의 비율로부터 계산되며, 확률 자체가 무차원이므로 본질적으로 무차원입니다.
One free problem
Practice Problem
연구자가 특정 유전자 돌연변이와 희귀 형질 사이의 연관성을 연구하고 있습니다. 완벽하게 균형 잡힌 모집단에서 결합 확률은 모두 동일합니다(각각 0.25). 상호 정보량을 계산하십시오.
Hint: 각 셀의 결합 확률이 해당 주변 확률의 곱과 같으면 변수는 독립적입니다.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
의료 검사 결과가 질병 상태에 대해 얼마나 정보를 제공하는지 정량화할 때, 상호 정보량(2×2)은 P(X=0,Y=0), P(X=0,Y=1), P(X=1,Y=0)로부터 상호 정보량을 계산하는 데 사용됩니다. 결과가 중요한 이유는 출력에 의존하기 전에 모델 동작, 알고리즘 비용 또는 예측 품질을 평가하는 데 도움이 되기 때문입니다.
Study smarter
Tips
- 시작하기 전에 결합확률(p00, p01, p10, p11)의 합이 정확히 1.0인지 확인하세요.
- 분할표의 행과 열을 합산하여 X와 Y의 주변확률을 계산하세요.
- p(x,y)가 0인 항은 0으로 처리하세요. p가 0에 가까워질 때 p log(p)의 극한은 0이기 때문입니다.
- 자연로그(ln)를 사용하면 결과는 nats 단위이고, 밑이 2인 로그를 사용하면 bits 단위입니다.
Avoid these traps
Common Mistakes
- 확률 합이 1이 되도록 정규화하는 것을 잊는 것.
- 로그(ln과 log2)와 단위(nats와 bits)를 혼동하는 것.
Common questions
Frequently Asked Questions
상호 정보는 모든 쌍에 대해 p(x,y) ln(p(x,y)/(p(x)p(y)))를 합산합니다.
이 공식은 두 이진 변수 간의 관계를 분석할 때 적용하십시오. 예를 들어, 검사 결과와 질병 유무를 비교하는 경우입니다. 비선형 의존성이나 일반적인 통계적 연관성을 포착해야 할 때 선형 상관관계보다 선호됩니다.
이는 통신 이론에서 채널 용량 계산과 머신 러닝에서 특징 선택을 위한 기본 개념입니다. 높은 상호 정보량은 한 변수의 상태를 알면 다른 변수에 대한 불확실성이 크게 줄어든다는 것을 나타냅니다.
확률 합이 1이 되도록 정규화하는 것을 잊는 것. 로그(ln과 log2)와 단위(nats와 bits)를 혼동하는 것.
의료 검사 결과가 질병 상태에 대해 얼마나 정보를 제공하는지 정량화할 때, 상호 정보량(2×2)은 P(X=0,Y=0), P(X=0,Y=1), P(X=1,Y=0)로부터 상호 정보량을 계산하는 데 사용됩니다. 결과가 중요한 이유는 출력에 의존하기 전에 모델 동작, 알고리즘 비용 또는 예측 품질을 평가하는 데 도움이 되기 때문입니다.
시작하기 전에 결합확률(p00, p01, p10, p11)의 합이 정확히 1.0인지 확인하세요. 분할표의 행과 열을 합산하여 X와 Y의 주변확률을 계산하세요. p(x,y)가 0인 항은 0으로 처리하세요. p가 0에 가까워질 때 p log(p)의 극한은 0이기 때문입니다. 자연로그(ln)를 사용하면 결과는 nats 단위이고, 밑이 2인 로그를 사용하면 bits 단위입니다.
References
Sources
- Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
- Wikipedia: Mutual Information
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.