परस्पर सूचना (2×2)

Core idea

Overview

परस्पर सूचना दो असतत यादृच्छिक चर के बीच सांख्यिकीय निर्भरता को मापती है, यह मापकर कि उनके बीच कितनी जानकारी साझा की जाती है। 2×2 संयोग मामले में, यह दो बाइनरी चर के संयुक्त संभाव्यता वितरण और सीमांत वितरणों के उत्पाद के बीच कुल्बैक-लीब्लर विचलन की गणना करता है।

When to use: इस सूत्र को दो बाइनरी चर के बीच संबंध का विश्लेषण करते समय लागू करें, जैसे कि परीक्षण परिणाम की तुलना किसी बीमारी की उपस्थिति से करना। जब आपको गैर-रैखिक निर्भरता या सामान्य सांख्यिकीय संबंध को पकड़ने की आवश्यकता होती है तो यह रैखिक सहसंबंध की तुलना में बेहतर होता है।

Why it matters: यह संचार सिद्धांत में चैनल क्षमता की गणना के लिए और मशीन लर्निंग में फ़ीचर चयन के लिए एक मौलिक अवधारणा है। उच्च परस्पर सूचना इंगित करती है कि एक चर की स्थिति जानने से दूसरे के बारे में अनिश्चितता काफी कम हो जाती है।

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

परस्पर सूचना (2×2)

पारस्परिक सूचना सभी युग्मों पर p(x,y) ln(p(x,y)/(p(x)p(y))) का योग करती है।

X और Y बर्नोली हैं।
संयुक्त संभावनाएं p00,p01,p10,p11 का योग 1 है।

1

परिभाषा से प्रारंभ करें:

पारस्परिक सूचना X और Y के बीच निर्भरता को मापती है।

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

2×2 तालिका से मार्जिनल की गणना करें:

अनुपात p(x,y)/(p(x)p(y)) बनाने के लिए आपको p(x) और p(y) की आवश्यकता है।

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

चार पदों (p00, p01, p10, p11) का योग करें:

प्रत्येक गैर-शून्य संयुक्त संभाव्यता एक पद का योगदान करती है। परंपरा के अनुसार, 0·ln(0)=0।

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

एक सांख्यिकीय परिदृश्य की कल्पना करें जहां प्रत्येक (x,y) बिंदु पर 'ऊंचाई' स्वतंत्रता से विचलन का प्रतिनिधित्व करती है। पारस्परिक जानकारी इन विचलनों की कुल 'मात्रा' है, जिसका मूल्यांकन इस आधार पर किया जाता है कि प्रत्येक संयोजन कितनी बार होता है।

Term

जानकारी की वह मात्रा जो एक यादृच्छिक चर (X) दूसरे (Y) के बारे में प्रदान करता है।

उच्च मान का अर्थ है कि X को जानने से Y के बारे में अनिश्चितता काफी हद तक कम हो जाती है (और इसके विपरीत); शून्य का मतलब है कि वे सांख्यिकीय रूप से स्वतंत्र हैं।

Term

चर X के लिए एक विशिष्ट परिणाम 'x' और चर Y के लिए एक विशिष्ट परिणाम 'y' को एक साथ देखने की संयुक्त संभावना।

देखे गए डेटा में राज्यों (x,y) का एक विशेष संयोजन कितनी बार एक साथ होता है।

Term

X के परिणाम 'x' और Y के परिणाम 'y' लेने की सीमांत संभावनाओं का उत्पाद, उनकी संयुक्त संभावना का प्रतिनिधित्व करता है यदि X और Y सांख्यिकीय रूप से स्वतंत्र थे।

संयोजन की आधारभूत आवृत्ति (x,y) यदि X और Y के बीच कोई संबंध या साझा जानकारी नहीं थी।

Term

नेट्स की इकाइयों में स्वतंत्रता की अपेक्षा के सापेक्ष एक विशिष्ट (x,y) जोड़ी से जुड़ी 'सूचना सामग्री' या 'आश्चर्य'।

यह मापता है कि किसी विशिष्ट (x,y) संयोजन की संभावना उससे कितनी अधिक (या कम) है यदि X और Y असंबद्ध थे। सकारात्मक मान का अर्थ है अधिक संभावना, नकारात्मक मान का अर्थ है कम संभावना।

Term

एक्स और वाई के लिए सभी संभावित अलग-अलग परिणामों का सारांश।

कुल साझा जानकारी की गणना करने के लिए एक्स और वाई के हर संभावित संयोजन से सूचना योगदान को एकत्रित करता है।

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: प्राकृतिक लघुगणक संभावनाओं के अनुपात को सूचना के योगात्मक माप में बदल देता है। यदि देखी गई संयुक्त संभावना p(x,y) p(x)p(y) से बड़ी है, तो लॉग शब्द सकारात्मक है; यदि यह छोटा है, तो पद नकारात्मक है।

Free study cues

Insight

Canonical usage

Mutual information is a dimensionless quantity, representing a measure of statistical dependence. It is conventionally expressed in 'nats' when the natural logarithm (ln) is used, or 'bits' when logarithm base 2 (log2)

Dimension note

Mutual information is inherently dimensionless because it is calculated from ratios of probabilities, which are themselves dimensionless.

One free problem

Practice Problem

एक शोधकर्ता एक विशिष्ट जीन उत्परिवर्तन और एक दुर्लभ लक्षण के बीच संबंध का अध्ययन कर रहा है। एक पूरी तरह से संतुलित आबादी में, संयुक्त संभावनाएँ सभी बराबर (प्रत्येक 0.25) हैं। परस्पर सूचना की गणना करें।

Hint: यदि प्रत्येक सेल की संयुक्त संभावना उसके सीमांत संभावनाओं के उत्पाद के बराबर है, तो चर स्वतंत्र हैं।

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

मापना कि किसी बीमारी की स्थिति के बारे में एक चिकित्सा परीक्षण परिणाम कितना जानकारीपूर्ण है। के संदर्भ में, परस्पर सूचना (2×2) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

Study smarter

Tips

शुरू करने से पहले सुनिश्चित करें कि संयुक्त संभावनाओं (p00, p01, p10, p11) का योग ठीक 1.0 है।
संयोग तालिका की पंक्तियों और स्तंभों को जोड़कर X और Y के लिए सीमांत संभावनाओं की गणना करें।
उन पदों को शून्य मानें जहां p(x,y) शून्य है, क्योंकि p के शून्य की ओर बढ़ने पर p log(p) की सीमा शून्य होती है।
प्राकृतिक लघुगणक (ln) का उपयोग करते समय परिणाम nats में मापा जाता है या log base 2 का उपयोग करते समय bits में।

Avoid these traps

Common Mistakes

संभावनाओं को 1 तक जोड़ने के लिए सामान्यीकृत करना भूलना।
लॉग (ln बनाम log2) और इकाइयों (nats बनाम bits) को मिलाना।

Keep going

Related Formulas

Common questions

Frequently Asked Questions

पारस्परिक सूचना सभी युग्मों पर p(x,y) ln(p(x,y)/(p(x)p(y))) का योग करती है।

इस सूत्र को दो बाइनरी चर के बीच संबंध का विश्लेषण करते समय लागू करें, जैसे कि परीक्षण परिणाम की तुलना किसी बीमारी की उपस्थिति से करना। जब आपको गैर-रैखिक निर्भरता या सामान्य सांख्यिकीय संबंध को पकड़ने की आवश्यकता होती है तो यह रैखिक सहसंबंध की तुलना में बेहतर होता है।

यह संचार सिद्धांत में चैनल क्षमता की गणना के लिए और मशीन लर्निंग में फ़ीचर चयन के लिए एक मौलिक अवधारणा है। उच्च परस्पर सूचना इंगित करती है कि एक चर की स्थिति जानने से दूसरे के बारे में अनिश्चितता काफी कम हो जाती है।

संभावनाओं को 1 तक जोड़ने के लिए सामान्यीकृत करना भूलना। लॉग (ln बनाम log2) और इकाइयों (nats बनाम bits) को मिलाना।

मापना कि किसी बीमारी की स्थिति के बारे में एक चिकित्सा परीक्षण परिणाम कितना जानकारीपूर्ण है। के संदर्भ में, परस्पर सूचना (2×2) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

शुरू करने से पहले सुनिश्चित करें कि संयुक्त संभावनाओं (p00, p01, p10, p11) का योग ठीक 1.0 है। संयोग तालिका की पंक्तियों और स्तंभों को जोड़कर X और Y के लिए सीमांत संभावनाओं की गणना करें। उन पदों को शून्य मानें जहां p(x,y) शून्य है, क्योंकि p के शून्य की ओर बढ़ने पर p log(p) की सीमा शून्य होती है। प्राकृतिक लघुगणक (ln) का उपयोग करते समय परिणाम nats में मापा जाता है या log base 2 का उपयोग करते समय bits में।

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

परिभाषा से प्रारंभ करें:

2×2 तालिका से मार्जिनल की गणना करें:

चार पदों (p00, p01, p10, p11) का योग करें:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources