Karşılıklı Bilgi (2×2)

Core idea

Overview

Karşılıklı Bilgi, iki ayrık rastgele değişken arasındaki paylaşılan bilgi miktarını ölçerek istatistiksel bağımlılığı nicelleştirir. 2×2 olasılık tablosu durumunda, ortak olasılık dağılımı ile iki ikili değişkenin marjinal dağılımlarının çarpımı arasındaki Kullback-Leibler ıraksaklığını hesaplar.

When to use: Bu formülü, bir test sonucunu bir hastalığın varlığıyla karşılaştırmak gibi iki ikili değişken arasındaki ilişkiyi analiz ederken uygulayın. Doğrusal olmayan bağımlılıkları veya genel istatistiksel ilişkiyi yakalamanız gerektiğinde doğrusal korelasyona tercih edilir.

Why it matters: Kanal kapasitesini hesaplamak için iletişim teorisinde ve özellik seçimi için makine öğreniminde temel bir kavramdır. Yüksek karşılıklı bilgi, bir değişkenin durumunu bilmenin diğeri hakkındaki belirsizliği önemli ölçüde azalttığını gösterir.

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

2×2 Birleşik Tablo'dan Karşılıklı Bilginin Türetilmesi

Karşılıklı bilgi, tüm çiftler üzerinden p(x,y) ln(p(x,y)/(p(x)p(y))) toplar.

X ve Y ikilidir.
Birleşik olasılıklar p00,p01,p10,p11 toplamı 1'dir.

1

Tanımdan başlayın:

Karşılıklı bilgi, X ve Y arasındaki bağımlılığı ölçer.

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

2×2 tablosundan marjinalleri hesaplayın:

Oran p(x,y)/(p(x)p(y)) oluşturmak için p(x) ve p(y)ye ihtiyacınız var.

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

Dört terimi (p00, p01, p10, p11) toplayın:

Sıfır olmayan her birleşik olasılık bir terim katkıda bulunur. Tanım gereği, 0·ln(0)=0.

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

Her (x,y) noktasındaki 'yüksekliğin' bağımsızlıktan sapmayı temsil ettiği bir istatistiksel manzara hayal edin. Karşılıklı bilgi, bu sapmaların toplam 'hacimi'dir ve her bir kombinasyonun ne sıklıkta gerçekleştiğine göre ağırlıklandırılır.

Term

Bir rastgele değişkenin (X) diğeri (Y) hakkında sağladığı bilgi miktarı.

Yüksek bir değer, X'i bilmenin Y hakkındaki belirsizliği önemli ölçüde azalttığı anlamına gelir (ve tam tersi); sıfır bunların istatistiksel olarak bağımsız olduğu anlamına gelir.

Term

X değişkeni için belirli bir 'x' sonucunu ve Y değişkeni için belirli bir 'y' sonucunu aynı anda gözlemlemenin ortak olasılığı.

Gözlenen verilerde belirli bir durum kombinasyonunun (x,y) birlikte ne sıklıkta ortaya çıktığı.

Term

X'in 'x' sonucunu alması ve Y'nin 'y' sonucunu almasına ilişkin marjinal olasılıkların çarpımı; X ve Y'nin istatistiksel olarak eşit olması durumunda bunların ortak olasılıklarını temsil eder. bağımsız.

X ve Y arasında herhangi bir ilişki veya paylaşılan bilgi yoksa bir kombinasyonun (x,y) temel frekansı.

Term

Nat birimleri cinsinden bağımsızlık beklentisine göre belirli bir (x,y) çiftiyle ilişkili 'bilgi içeriği' veya 'sürpriz'.

Belirli bir (x,y) kombinasyonunun X ve Y'nin ilişkisiz olduğu duruma göre ne kadar daha fazla (veya daha az) muhtemel olduğunu ölçer. Pozitif bir değer daha fazla olasılık, negatif bir değer ise daha az olasılık anlamına gelir.

Term

X ve Y için tüm olası ayrık sonuçların toplamı.

Toplam paylaşılan bilgiyi hesaplamak için X ve Y'nin olası her birleşiminden gelen bilgi katkılarını toplar.

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: Doğal logaritma, olasılıkların oranını toplamsal bir bilgi ölçüsüne dönüştürür. Gözlemlenen ortak olasılık p(x,y), p(x)p(y)'den büyükse, log terimi pozitiftir; daha küçükse terim negatiftir.

Free study cues

Insight

Canonical usage

Mutual information is a dimensionless quantity, representing a measure of statistical dependence. It is conventionally expressed in 'nats' when the natural logarithm (ln) is used, or 'bits' when logarithm base 2 (log2)

Dimension note

Mutual information is inherently dimensionless because it is calculated from ratios of probabilities, which are themselves dimensionless.

One free problem

Practice Problem

Bir araştırmacı belirli bir gen mutasyonu ile nadir bir özellik arasındaki bağlantıyı inceliyor. Tamamen dengeli bir popülasyonda, ortak olasılıkların hepsi eşittir (her biri 0.25). Karşılıklı Bilgiyi hesaplayın.

Hint: Her hücrenin ortak olasılığı, marjinal olasılıklarının çarpımına eşitse, değişkenler bağımsızdır.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Bir tıbbi test sonucunun hastalık durumu hakkında ne kadar bilgilendirici olduğunu nicelleştirmek bağlamında Karşılıklı Bilgi (2×2), ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Study smarter

Tips

Başlamadan önce ortak olasılıkların (p00, p01, p10, p11) toplamının tam olarak 1.0 olduğundan emin olun.
X ve Y için marjinal olasılıkları, olasılık tablosunun satırlarını ve sütunlarını toplayarak hesaplayın.
p'nin sıfıra yaklaşmasıyla p log(p) limitinin sıfır olması nedeniyle p(x,y)'nin sıfır olduğu terimleri sıfır olarak kabul edin.
Doğal logaritma (ln) kullanıldığında sonuç nat cinsinden, logaritma tabanı 2 kullanıldığında ise bit cinsinden ölçülür.

Avoid these traps

Common Mistakes

Olasılıkları 1'e normalize etmeyi unutmak.
Logaritmaları (ln vs log2) ve birimleri (nats vs bit) karıştırmak.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Karşılıklı bilgi, tüm çiftler üzerinden p(x,y) ln(p(x,y)/(p(x)p(y))) toplar.

Bu formülü, bir test sonucunu bir hastalığın varlığıyla karşılaştırmak gibi iki ikili değişken arasındaki ilişkiyi analiz ederken uygulayın. Doğrusal olmayan bağımlılıkları veya genel istatistiksel ilişkiyi yakalamanız gerektiğinde doğrusal korelasyona tercih edilir.

Kanal kapasitesini hesaplamak için iletişim teorisinde ve özellik seçimi için makine öğreniminde temel bir kavramdır. Yüksek karşılıklı bilgi, bir değişkenin durumunu bilmenin diğeri hakkındaki belirsizliği önemli ölçüde azalttığını gösterir.

Olasılıkları 1'e normalize etmeyi unutmak. Logaritmaları (ln vs log2) ve birimleri (nats vs bit) karıştırmak.

Bir tıbbi test sonucunun hastalık durumu hakkında ne kadar bilgilendirici olduğunu nicelleştirmek bağlamında Karşılıklı Bilgi (2×2), ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Başlamadan önce ortak olasılıkların (p00, p01, p10, p11) toplamının tam olarak 1.0 olduğundan emin olun. X ve Y için marjinal olasılıkları, olasılık tablosunun satırlarını ve sütunlarını toplayarak hesaplayın. p'nin sıfıra yaklaşmasıyla p log(p) limitinin sıfır olması nedeniyle p(x,y)'nin sıfır olduğu terimleri sıfır olarak kabul edin. Doğal logaritma (ln) kullanıldığında sonuç nat cinsinden, logaritma tabanı 2 kullanıldığında ise bit cinsinden ölçülür.

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

Tanımdan başlayın:

2×2 tablosundan marjinalleri hesaplayın:

Dört terimi (p00, p01, p10, p11) toplayın:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources