Data & Computingमशीन लर्निंगA-Level
CambridgeAQAAPOntarioNSWCBSEGCE O-LevelMoE

बाइनरी क्रॉस-एन्ट्रॉपी

बाइनरी वर्गीकरण के लिए हानि फ़ंक्शन।

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

बाइनरी क्रॉस-एन्ट्रॉपी दो संभाव्यता वितरणों के बीच विचलन को मापता है, आमतौर पर बाइनरी वर्गीकरण कार्य में वास्तविक लेबल और अनुमानित संभावनाओं के बीच। यह एक हानि मान की गणना करता है जो वास्तविक वर्ग मान से विचलन करने पर भविष्यवाणियों को घातीय रूप से दंडित करता है।

When to use: यह समीकरण बाइनरी वर्गीकरण समस्याओं के लिए मानक हानि फ़ंक्शन है जहाँ आउटपुट 0 और 1 के बीच एक एकल संभावना है। यह तंत्रिका नेटवर्क के अंतिम परत में सिग्मॉइड एक्टिवेशन फ़ंक्शन के साथ जोड़े जाने पर सबसे प्रभावी होता है।

Why it matters: यह अनुकूलन के लिए एक चिकनी, उत्तल सतह प्रदान करता है, जिससे ग्रेडिएंट डिसेंट मॉडल भार को प्रभावी ढंग से अपडेट कर पाता है। आत्मविश्वासपूर्ण लेकिन गलत भविष्यवाणियों को भारी दंडित करके, यह मॉडल को वर्गों के बीच अधिक विशिष्ट सीमाएँ सीखने के लिए मजबूर करता है।

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

Loss
Variable
Actual Label (0/1)
Variable
Predicted Prob
Variable

Walkthrough

Derivation

Formula: Binary Cross-Entropy (Log Loss)

Binary cross-entropy measures how well predicted probabilities match true binary labels y, heavily penalising confident wrong predictions.

1

Write loss for one example:

If y=1, only -() matters; if y=0, only -(1-) matters.

2

Average across N examples:

The dataset loss is the mean of individual losses, giving a single number to minimise during training.

Note: In practice, probabilities are clipped away from 0 and 1 to avoid (0).

Result

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

एक परिदृश्य जहाँ मॉडल सबसे निचले बिंदु को खोजने का लक्ष्य रखता है, जो इसकी अनुमानित प्रायिकताओं और वास्तविक वर्ग लेबल के बीच न्यूनतम विचलन का प्रतिनिधित्व करता है, जिसमें तेज ढालें हैं जो आत्मविश्वास से गलत को गंभीर रूप से दंडित करती हैं।

Term
एक स्केलर मान जो एक एकल डेटा बिंदु के लिए वास्तविक लेबल और अनुमानित प्रायिकता के बीच की विसंगति को मापता है।
उच्च मान एक खराब भविष्यवाणी का संकेत देता है, जिसका अर्थ है कि मॉडल अधिक 'गलत' था या 'सही उत्तर में कम विश्वास' था।
Term
इनपुट डेटा के लिए वास्तविक, सही बाइनरी वर्ग लेबल (0 या 1)।
यह वह लक्ष्य मान है जिसे मॉडल सीखने और भविष्यवाणी करने की कोशिश कर रहा है।
Term
वास्तविक लेबल 'y' के 1 होने की मॉडल की अनुमानित प्रायिकता।
सकारात्मक वर्ग के लिए मॉडल के आत्मविश्वास स्तर का प्रतिनिधित्व करता है।
Term
अनुमानित प्रायिकता 'p' का प्राकृतिक लघुगणक।
मॉडल को अधिक भारी दंडित करता है क्योंकि वास्तविक वर्ग के लिए इसकी अनुमानित प्रायिकता 'p' 0 के करीब पहुंचती है (यानी, आत्मविश्वास से गलत भविष्यवाणी)।
Term
वास्तविक लेबल 'y' के 0 होने की प्रायिकता (यानी, 1-p) का प्राकृतिक लघुगणक।
मॉडल को अधिक भारी दंडित करता है क्योंकि वास्तविक वर्ग 0 होने पर इसके अनुमानित प्रायिकता 'p' 1 के करीब पहुंचती है (यानी, आत्मविश्वास से गलत भविष्यवाणी)।

Signs and relationships

  • -: प्रायिकता (0 और 1 के बीच का मान) का प्राकृतिक लघुगणक हमेशा ऋणात्मक या शून्य होता है। यह सुनिश्चित करने के लिए कि हानि फलन 'L' एक गैर-ऋणात्मक मान है जिसे शून्य की ओर कम किया जा सकता है, पूरे व्यंजक को गुणा किया जाता है।

Free study cues

Insight

Canonical usage

This equation calculates a dimensionless loss value, representing the divergence between a true binary label and a predicted probability.

Dimension note

All variables in the Binary Cross-Entropy formula (true label 'y', predicted probability 'p', and the resulting loss 'L') are dimensionless quantities.

One free problem

Practice Problem

एक मशीन लर्निंग मॉडल एक लेनदेन को धोखाधड़ी (y = 1) के रूप में पहचानता है। मॉडल की धोखाधड़ी की अनुमानित संभावना 0.85 है। इस विशिष्ट भविष्यवाणी के लिए बाइनरी क्रॉस-एन्ट्रॉपी हानि की गणना करें।

Hint: जब y = 1, सूत्र L = -ln(p) तक सरल हो जाता है।

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

संभाव्य आउटपुट के साथ स्पैम क्लासिफायर को प्रशिक्षित करना। के संदर्भ में, बाइनरी क्रॉस-एन्ट्रॉपी मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

Study smarter

Tips

  • 0 या 1 पर अपरिभाषित प्राकृतिक लॉग से बचने के लिए अनुमानित मान p को (0, 1) के भीतर रखें।
  • यदि भविष्यवाणी लेबल से पूरी तरह मेल खाती है तो हानि 0 होती है।
  • बहु-वर्ग लक्ष्यों के लिए, इसके बजाय कैटेगोरिकल क्रॉस-एन्ट्रॉपी प्रकार का उपयोग करें।

Avoid these traps

Common Mistakes

  • p=0 या p=1 का सीधे उपयोग करना।
  • (1-y) पद भूल जाना।

Common questions

Frequently Asked Questions

Binary cross-entropy measures how well predicted probabilities \hat{y} match true binary labels y, heavily penalising confident wrong predictions.

यह समीकरण बाइनरी वर्गीकरण समस्याओं के लिए मानक हानि फ़ंक्शन है जहाँ आउटपुट 0 और 1 के बीच एक एकल संभावना है। यह तंत्रिका नेटवर्क के अंतिम परत में सिग्मॉइड एक्टिवेशन फ़ंक्शन के साथ जोड़े जाने पर सबसे प्रभावी होता है।

यह अनुकूलन के लिए एक चिकनी, उत्तल सतह प्रदान करता है, जिससे ग्रेडिएंट डिसेंट मॉडल भार को प्रभावी ढंग से अपडेट कर पाता है। आत्मविश्वासपूर्ण लेकिन गलत भविष्यवाणियों को भारी दंडित करके, यह मॉडल को वर्गों के बीच अधिक विशिष्ट सीमाएँ सीखने के लिए मजबूर करता है।

p=0 या p=1 का सीधे उपयोग करना। (1-y) पद भूल जाना।

संभाव्य आउटपुट के साथ स्पैम क्लासिफायर को प्रशिक्षित करना। के संदर्भ में, बाइनरी क्रॉस-एन्ट्रॉपी मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

0 या 1 पर अपरिभाषित प्राकृतिक लॉग से बचने के लिए अनुमानित मान p को (0, 1) के भीतर रखें। यदि भविष्यवाणी लेबल से पूरी तरह मेल खाती है तो हानि 0 होती है। बहु-वर्ग लक्ष्यों के लिए, इसके बजाय कैटेगोरिकल क्रॉस-एन्ट्रॉपी प्रकार का उपयोग करें।

References

Sources

  1. Wikipedia: Cross-entropy
  2. Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
  3. Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
  4. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
  5. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
  6. Standard curriculum — Machine Learning (Classification Losses)