Data & Computingसूचना सिद्धांतUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

क्रॉस-एंट्रॉपी (बर्नोली)

सच्चे बर्नोली(p) और मॉडल बर्नोली(q) के बीच क्रॉस-एंट्रॉपी।

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

बर्नोली वितरण के लिए क्रॉस-एंट्रॉपी, वास्तविक बाइनरी संभाव्यता p और अनुमानित संभाव्यता q के बीच विचलन को मापता है। यह बाइनरी क्लासिफिकेशन में उपयोग किया जाने वाला मानक मीट्रिक है जो मॉडल को उनके अनुमानित वितरण वास्तविक लक्ष्य वितरण से कितना भिन्न है, इसके आधार पर दंडित करता है।

When to use: द्विआधारी वर्गीकरण मॉडल का मूल्यांकन करते समय इस समीकरण को लागू करें जहां परिणाम परस्पर अनन्य हैं। यह लॉजिस्टिक रिग्रेशन मॉडल और बाइनरी न्यूरल नेटवर्क के प्रशिक्षण के दौरान उपयोग किया जाने वाला प्राथमिक लॉस फ़ंक्शन है।

Why it matters: यह फ़ंक्शन क्लासिफिकेशन के लिए माध्य वर्ग त्रुटि से बेहतर है क्योंकि यह मॉडल के आत्मविश्वास से गलत होने पर मजबूत ग्रेडिएंट प्रदान करता है। इसके परिणामस्वरूप ग्रेडिएंट डिसेंट जैसी अनुकूलन प्रक्रियाओं के दौरान तेजी से अभिसरण होता है।

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)
Cross-Entropy
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

क्रॉस-एंट्रॉपी (बर्नोली)

क्रॉस-एंट्रॉपी मॉडल q के तहत अपेक्षित नकारात्मक लॉग-संभावना है जब डेटा वास्तविक संभाव्यता p का अनुसरण करता है।

  • बाइनरी चर X∈{0,1}।
  • वास्तविक वितरण: P(X=1)=p।
  • मॉडल वितरण: Q(X=1)=q।
1

क्रॉस-एंट्रॉपी की परिभाषा से प्रारंभ करें:

क्रॉस-एंट्रॉपी मॉडल Q के तहत अपेक्षित नकारात्मक लॉग-लाइक्लीहुड है।

2

X=1 और X=0 पर अपेक्षा लिखें:

संभावना p के साथ आप 1 (लॉग-लाइक्लीहुड ln q) का निरीक्षण करते हैं, अन्यथा 0 (लॉग-लाइक्लीहुड ln(1−q))।

Result

Why it behaves this way

Intuition

दो बार चार्ट की कल्पना करें: एक वास्तविक संभावनाओं 'p' और '1-p' का प्रतिनिधित्व करता है, और दूसरा मॉडल की अनुमानित संभावनाओं 'q' और '1-q' का प्रतिनिधित्व करता है।

Term
एक कोड का उपयोग करके एक वास्तविक वितरण 'p' से एक घटना को एनकोड करने के लिए आवश्यक औसत बिट्स की संख्या का एक उपाय जब एक कोड का उपयोग करके अनुकूलित किया गया हो जो एक अनुमानित वितरण 'q' के लिए अनुकूलित हो।
यह मापता है कि जब उसके अनुमान 'q' हैं और वास्तविक संभावनाएं 'p' हैं, तो सभी संभावित परिणामों पर औसत रूप से, एक मॉडल वास्तविक परिणाम से कितना 'आश्चर्यचकित' होता है। एक उच्च मान अधिक विचलन या 'आश्चर्य' का मतलब है।
Term
सकारात्मक वर्ग (उदाहरण के लिए, वास्तविक लेबल 1 है) की वास्तविक संभाव्यता।
किसी घटना के घटित होने की वास्तविक, प्रेक्षित संभावना का प्रतिनिधित्व करता है।
Term
सकारात्मक वर्ग (उदाहरण के लिए, मॉडल का आउटपुट लेबल 1 के लिए) की अनुमानित संभाव्यता।
किसी घटना के घटित होने की मॉडल की अनुमानित संभावना का प्रतिनिधित्व करता है।
Term
सकारात्मक वर्ग की अनुमानित संभाव्यता का लघुगणक।
यह पद तब नुकसान में योगदान देता है जब वास्तविक परिणाम सकारात्मक होता है (p=1)। यह मॉडल को भारी दंडित करता है जब यह एक वास्तविक सकारात्मक घटना के लिए एक कम 'q' का अनुमान लगाता है, क्योंकि छोटे 'q' के लिए ln(q) बहुत नकारात्मक हो जाता है।
Term
नकारात्मक वर्ग की अनुमानित संभाव्यता का लघुगणक।
यह पद तब नुकसान में योगदान देता है जब वास्तविक परिणाम नकारात्मक होता है (p=0)। यह मॉडल को भारी दंडित करता है जब यह एक वास्तविक नकारात्मक घटना के लिए एक उच्च 'q' (जिसका अर्थ है कम '1-q') का अनुमान लगाता है।

Signs and relationships

  • -: संभावना का लघुगणक (0 और 1 के बीच का मान) हमेशा नकारात्मक या शून्य होता है। अग्रणी नकारात्मक चिह्न यह सुनिश्चित करता है कि क्रॉस-एंट्रॉपी हानि एक सकारात्मक मान हो, जो हानि फ़ंक्शंस के लिए प्रथागत है जो

Free study cues

Insight

Canonical usage

This equation calculates a dimensionless value, often interpreted in 'nats' when using the natural logarithm, quantifying the divergence between two probability distributions.

Dimension note

Cross-entropy is a dimensionless measure of the average number of nats (or bits, if a base-2 logarithm is used) required to identify an event from a true distribution, given an encoding optimized for a predicted

One free problem

Practice Problem

एक मशीन लर्निंग मॉडल भविष्यवाणी करता है कि एक छवि में बिल्ली होने की 0.7 प्रायिकता (q) है। वास्तविक छवि वास्तव में एक बिल्ली है (p = 1.0)। इस भविष्यवाणी के लिए बाइनरी क्रॉस-एंट्रॉपी की गणना नैट्स में करें।

Hint: चूंकि p = 1 है, (1-p) पद शून्य हो जाता है, जिसका अर्थ है कि आपको केवल -ln(q) की गणना करने की आवश्यकता है।

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

स्पैम फ़िल्टर स्पैम प्रायिकता का अधिक/कम अनुमान लगाता है, तो अपेक्षित लॉग-हानि। के संदर्भ में, क्रॉस-एंट्रॉपी (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

Study smarter

Tips

  • अपरिभाषित लॉग ऑपरेशनों से बचने के लिए सुनिश्चित करें कि अनुमानित मान q सख्ती से 0 और 1 के बीच है।
  • ध्यान दें कि p आमतौर पर ग्राउंड ट्रुथ लेबल का प्रतिनिधित्व करता है और आमतौर पर 0 या 1 होता है।
  • कम क्रॉस-एंट्रॉपी मान एक ऐसे मॉडल को इंगित करते हैं जो वास्तविक डेटा वितरण के अधिक निकटता से संरेखित है।

Avoid these traps

Common Mistakes

  • प्रायिकता के बजाय प्रतिशत का उपयोग करना (0.7 न कि 70)।
  • 0 का ln लेना (q सख्ती से 0 और 1 के बीच होना चाहिए)।

Common questions

Frequently Asked Questions

क्रॉस-एंट्रॉपी मॉडल q के तहत अपेक्षित नकारात्मक लॉग-संभावना है जब डेटा वास्तविक संभाव्यता p का अनुसरण करता है।

द्विआधारी वर्गीकरण मॉडल का मूल्यांकन करते समय इस समीकरण को लागू करें जहां परिणाम परस्पर अनन्य हैं। यह लॉजिस्टिक रिग्रेशन मॉडल और बाइनरी न्यूरल नेटवर्क के प्रशिक्षण के दौरान उपयोग किया जाने वाला प्राथमिक लॉस फ़ंक्शन है।

यह फ़ंक्शन क्लासिफिकेशन के लिए माध्य वर्ग त्रुटि से बेहतर है क्योंकि यह मॉडल के आत्मविश्वास से गलत होने पर मजबूत ग्रेडिएंट प्रदान करता है। इसके परिणामस्वरूप ग्रेडिएंट डिसेंट जैसी अनुकूलन प्रक्रियाओं के दौरान तेजी से अभिसरण होता है।

प्रायिकता के बजाय प्रतिशत का उपयोग करना (0.7 न कि 70)। 0 का ln लेना (q सख्ती से 0 और 1 के बीच होना चाहिए)।

स्पैम फ़िल्टर स्पैम प्रायिकता का अधिक/कम अनुमान लगाता है, तो अपेक्षित लॉग-हानि। के संदर्भ में, क्रॉस-एंट्रॉपी (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

अपरिभाषित लॉग ऑपरेशनों से बचने के लिए सुनिश्चित करें कि अनुमानित मान q सख्ती से 0 और 1 के बीच है। ध्यान दें कि p आमतौर पर ग्राउंड ट्रुथ लेबल का प्रतिनिधित्व करता है और आमतौर पर 0 या 1 होता है। कम क्रॉस-एंट्रॉपी मान एक ऐसे मॉडल को इंगित करते हैं जो वास्तविक डेटा वितरण के अधिक निकटता से संरेखित है।

References

Sources

  1. Wikipedia: Cross-entropy
  2. Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
  3. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  4. Elements of Information Theory (Cover and Thomas)
  5. Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  6. Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.