क्रॉस-एंट्रॉपी (बर्नोली)

Core idea

Overview

बर्नोली वितरण के लिए क्रॉस-एंट्रॉपी, वास्तविक बाइनरी संभाव्यता p और अनुमानित संभाव्यता q के बीच विचलन को मापता है। यह बाइनरी क्लासिफिकेशन में उपयोग किया जाने वाला मानक मीट्रिक है जो मॉडल को उनके अनुमानित वितरण वास्तविक लक्ष्य वितरण से कितना भिन्न है, इसके आधार पर दंडित करता है।

When to use: द्विआधारी वर्गीकरण मॉडल का मूल्यांकन करते समय इस समीकरण को लागू करें जहां परिणाम परस्पर अनन्य हैं। यह लॉजिस्टिक रिग्रेशन मॉडल और बाइनरी न्यूरल नेटवर्क के प्रशिक्षण के दौरान उपयोग किया जाने वाला प्राथमिक लॉस फ़ंक्शन है।

Why it matters: यह फ़ंक्शन क्लासिफिकेशन के लिए माध्य वर्ग त्रुटि से बेहतर है क्योंकि यह मॉडल के आत्मविश्वास से गलत होने पर मजबूत ग्रेडिएंट प्रदान करता है। इसके परिणामस्वरूप ग्रेडिएंट डिसेंट जैसी अनुकूलन प्रक्रियाओं के दौरान तेजी से अभिसरण होता है।

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)

Cross-Entropy

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

क्रॉस-एंट्रॉपी (बर्नोली)

क्रॉस-एंट्रॉपी मॉडल q के तहत अपेक्षित नकारात्मक लॉग-संभावना है जब डेटा वास्तविक संभाव्यता p का अनुसरण करता है।

बाइनरी चर X∈{0,1}।
वास्तविक वितरण: P(X=1)=p।
मॉडल वितरण: Q(X=1)=q।

1

क्रॉस-एंट्रॉपी की परिभाषा से प्रारंभ करें:

क्रॉस-एंट्रॉपी मॉडल Q के तहत अपेक्षित नकारात्मक लॉग-लाइक्लीहुड है।

H (p, q) = - E_{X \sim p} [ln Q (X)]

2

X=1 और X=0 पर अपेक्षा लिखें:

संभावना p के साथ आप 1 (लॉग-लाइक्लीहुड ln q) का निरीक्षण करते हैं, अन्यथा 0 (लॉग-लाइक्लीहुड ln(1−q))।

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Result

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Why it behaves this way

Intuition

दो बार चार्ट की कल्पना करें: एक वास्तविक संभावनाओं 'p' और '1-p' का प्रतिनिधित्व करता है, और दूसरा मॉडल की अनुमानित संभावनाओं 'q' और '1-q' का प्रतिनिधित्व करता है।

Term

एक कोड का उपयोग करके एक वास्तविक वितरण 'p' से एक घटना को एनकोड करने के लिए आवश्यक औसत बिट्स की संख्या का एक उपाय जब एक कोड का उपयोग करके अनुकूलित किया गया हो जो एक अनुमानित वितरण 'q' के लिए अनुकूलित हो।

यह मापता है कि जब उसके अनुमान 'q' हैं और वास्तविक संभावनाएं 'p' हैं, तो सभी संभावित परिणामों पर औसत रूप से, एक मॉडल वास्तविक परिणाम से कितना 'आश्चर्यचकित' होता है। एक उच्च मान अधिक विचलन या 'आश्चर्य' का मतलब है।

Term

सकारात्मक वर्ग (उदाहरण के लिए, वास्तविक लेबल 1 है) की वास्तविक संभाव्यता।

किसी घटना के घटित होने की वास्तविक, प्रेक्षित संभावना का प्रतिनिधित्व करता है।

Term

सकारात्मक वर्ग (उदाहरण के लिए, मॉडल का आउटपुट लेबल 1 के लिए) की अनुमानित संभाव्यता।

किसी घटना के घटित होने की मॉडल की अनुमानित संभावना का प्रतिनिधित्व करता है।

Term

सकारात्मक वर्ग की अनुमानित संभाव्यता का लघुगणक।

यह पद तब नुकसान में योगदान देता है जब वास्तविक परिणाम सकारात्मक होता है (p=1)। यह मॉडल को भारी दंडित करता है जब यह एक वास्तविक सकारात्मक घटना के लिए एक कम 'q' का अनुमान लगाता है, क्योंकि छोटे 'q' के लिए ln(q) बहुत नकारात्मक हो जाता है।

Term

नकारात्मक वर्ग की अनुमानित संभाव्यता का लघुगणक।

यह पद तब नुकसान में योगदान देता है जब वास्तविक परिणाम नकारात्मक होता है (p=0)। यह मॉडल को भारी दंडित करता है जब यह एक वास्तविक नकारात्मक घटना के लिए एक उच्च 'q' (जिसका अर्थ है कम '1-q') का अनुमान लगाता है।

Signs and relationships

-: संभावना का लघुगणक (0 और 1 के बीच का मान) हमेशा नकारात्मक या शून्य होता है। अग्रणी नकारात्मक चिह्न यह सुनिश्चित करता है कि क्रॉस-एंट्रॉपी हानि एक सकारात्मक मान हो, जो हानि फ़ंक्शंस के लिए प्रथागत है जो

Free study cues

Insight

Canonical usage

This equation calculates a dimensionless value, often interpreted in 'nats' when using the natural logarithm, quantifying the divergence between two probability distributions.

Dimension note

Cross-entropy is a dimensionless measure of the average number of nats (or bits, if a base-2 logarithm is used) required to identify an event from a true distribution, given an encoding optimized for a predicted

One free problem

Practice Problem

एक मशीन लर्निंग मॉडल भविष्यवाणी करता है कि एक छवि में बिल्ली होने की 0.7 प्रायिकता (q) है। वास्तविक छवि वास्तव में एक बिल्ली है (p = 1.0)। इस भविष्यवाणी के लिए बाइनरी क्रॉस-एंट्रॉपी की गणना नैट्स में करें।

Hint: चूंकि p = 1 है, (1-p) पद शून्य हो जाता है, जिसका अर्थ है कि आपको केवल -ln(q) की गणना करने की आवश्यकता है।

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

स्पैम फ़िल्टर स्पैम प्रायिकता का अधिक/कम अनुमान लगाता है, तो अपेक्षित लॉग-हानि। के संदर्भ में, क्रॉस-एंट्रॉपी (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

Study smarter

Tips

अपरिभाषित लॉग ऑपरेशनों से बचने के लिए सुनिश्चित करें कि अनुमानित मान q सख्ती से 0 और 1 के बीच है।
ध्यान दें कि p आमतौर पर ग्राउंड ट्रुथ लेबल का प्रतिनिधित्व करता है और आमतौर पर 0 या 1 होता है।
कम क्रॉस-एंट्रॉपी मान एक ऐसे मॉडल को इंगित करते हैं जो वास्तविक डेटा वितरण के अधिक निकटता से संरेखित है।

Avoid these traps

Common Mistakes

प्रायिकता के बजाय प्रतिशत का उपयोग करना (0.7 न कि 70)।
0 का ln लेना (q सख्ती से 0 और 1 के बीच होना चाहिए)।

Keep going

Related Formulas

Common questions

Frequently Asked Questions

क्रॉस-एंट्रॉपी मॉडल q के तहत अपेक्षित नकारात्मक लॉग-संभावना है जब डेटा वास्तविक संभाव्यता p का अनुसरण करता है।

द्विआधारी वर्गीकरण मॉडल का मूल्यांकन करते समय इस समीकरण को लागू करें जहां परिणाम परस्पर अनन्य हैं। यह लॉजिस्टिक रिग्रेशन मॉडल और बाइनरी न्यूरल नेटवर्क के प्रशिक्षण के दौरान उपयोग किया जाने वाला प्राथमिक लॉस फ़ंक्शन है।

यह फ़ंक्शन क्लासिफिकेशन के लिए माध्य वर्ग त्रुटि से बेहतर है क्योंकि यह मॉडल के आत्मविश्वास से गलत होने पर मजबूत ग्रेडिएंट प्रदान करता है। इसके परिणामस्वरूप ग्रेडिएंट डिसेंट जैसी अनुकूलन प्रक्रियाओं के दौरान तेजी से अभिसरण होता है।

प्रायिकता के बजाय प्रतिशत का उपयोग करना (0.7 न कि 70)। 0 का ln लेना (q सख्ती से 0 और 1 के बीच होना चाहिए)।

स्पैम फ़िल्टर स्पैम प्रायिकता का अधिक/कम अनुमान लगाता है, तो अपेक्षित लॉग-हानि। के संदर्भ में, क्रॉस-एंट्रॉपी (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

अपरिभाषित लॉग ऑपरेशनों से बचने के लिए सुनिश्चित करें कि अनुमानित मान q सख्ती से 0 और 1 के बीच है। ध्यान दें कि p आमतौर पर ग्राउंड ट्रुथ लेबल का प्रतिनिधित्व करता है और आमतौर पर 0 या 1 होता है। कम क्रॉस-एंट्रॉपी मान एक ऐसे मॉडल को इंगित करते हैं जो वास्तविक डेटा वितरण के अधिक निकटता से संरेखित है।

References

Sources

Wikipedia: Cross-entropy
Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Elements of Information Theory (Cover and Thomas)
Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

Overview

Variables

Derivation

क्रॉस-एंट्रॉपी की परिभाषा से प्रारंभ करें:

X=1 और X=0 पर अपेक्षा लिखें:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Binary Cross-Entropy Loss

KL Divergence (Bernoulli)

Entropy (Shannon)

Frequently Asked Questions

Sources