बाइनरी क्रॉस-एन्ट्रॉपी

Core idea

Overview

बाइनरी क्रॉस-एन्ट्रॉपी दो संभाव्यता वितरणों के बीच विचलन को मापता है, आमतौर पर बाइनरी वर्गीकरण कार्य में वास्तविक लेबल और अनुमानित संभावनाओं के बीच। यह एक हानि मान की गणना करता है जो वास्तविक वर्ग मान से विचलन करने पर भविष्यवाणियों को घातीय रूप से दंडित करता है।

When to use: यह समीकरण बाइनरी वर्गीकरण समस्याओं के लिए मानक हानि फ़ंक्शन है जहाँ आउटपुट 0 और 1 के बीच एक एकल संभावना है। यह तंत्रिका नेटवर्क के अंतिम परत में सिग्मॉइड एक्टिवेशन फ़ंक्शन के साथ जोड़े जाने पर सबसे प्रभावी होता है।

Why it matters: यह अनुकूलन के लिए एक चिकनी, उत्तल सतह प्रदान करता है, जिससे ग्रेडिएंट डिसेंट मॉडल भार को प्रभावी ढंग से अपडेट कर पाता है। आत्मविश्वासपूर्ण लेकिन गलत भविष्यवाणियों को भारी दंडित करके, यह मॉडल को वर्गों के बीच अधिक विशिष्ट सीमाएँ सीखने के लिए मजबूर करता है।

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

Formula: Binary Cross-Entropy (Log Loss)

Binary cross-entropy measures how well predicted probabilities $\overset{y}{^}$ match true binary labels y, heavily penalising confident wrong predictions.

1

Write loss for one example:

If y=1, only - $ln$ ( $\overset{y}{^}$ ) matters; if y=0, only - $ln$ (1- $\overset{y}{^}$ ) matters.

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

Average across N examples:

The dataset loss is the mean of individual losses, giving a single number to minimise during training.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: In practice, probabilities are clipped away from 0 and 1 to avoid $ln$ (0).

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

एक परिदृश्य जहाँ मॉडल सबसे निचले बिंदु को खोजने का लक्ष्य रखता है, जो इसकी अनुमानित प्रायिकताओं और वास्तविक वर्ग लेबल के बीच न्यूनतम विचलन का प्रतिनिधित्व करता है, जिसमें तेज ढालें हैं जो आत्मविश्वास से गलत को गंभीर रूप से दंडित करती हैं।

Term

एक स्केलर मान जो एक एकल डेटा बिंदु के लिए वास्तविक लेबल और अनुमानित प्रायिकता के बीच की विसंगति को मापता है।

उच्च मान एक खराब भविष्यवाणी का संकेत देता है, जिसका अर्थ है कि मॉडल अधिक 'गलत' था या 'सही उत्तर में कम विश्वास' था।

Term

इनपुट डेटा के लिए वास्तविक, सही बाइनरी वर्ग लेबल (0 या 1)।

यह वह लक्ष्य मान है जिसे मॉडल सीखने और भविष्यवाणी करने की कोशिश कर रहा है।

Term

वास्तविक लेबल 'y' के 1 होने की मॉडल की अनुमानित प्रायिकता।

सकारात्मक वर्ग के लिए मॉडल के आत्मविश्वास स्तर का प्रतिनिधित्व करता है।

Term

अनुमानित प्रायिकता 'p' का प्राकृतिक लघुगणक।

मॉडल को अधिक भारी दंडित करता है क्योंकि वास्तविक वर्ग के लिए इसकी अनुमानित प्रायिकता 'p' 0 के करीब पहुंचती है (यानी, आत्मविश्वास से गलत भविष्यवाणी)।

Term

वास्तविक लेबल 'y' के 0 होने की प्रायिकता (यानी, 1-p) का प्राकृतिक लघुगणक।

मॉडल को अधिक भारी दंडित करता है क्योंकि वास्तविक वर्ग 0 होने पर इसके अनुमानित प्रायिकता 'p' 1 के करीब पहुंचती है (यानी, आत्मविश्वास से गलत भविष्यवाणी)।

Signs and relationships

-: प्रायिकता (0 और 1 के बीच का मान) का प्राकृतिक लघुगणक हमेशा ऋणात्मक या शून्य होता है। यह सुनिश्चित करने के लिए कि हानि फलन 'L' एक गैर-ऋणात्मक मान है जिसे शून्य की ओर कम किया जा सकता है, पूरे व्यंजक को गुणा किया जाता है।

Free study cues

Insight

Canonical usage

This equation calculates a dimensionless loss value, representing the divergence between a true binary label and a predicted probability.

Dimension note

All variables in the Binary Cross-Entropy formula (true label 'y', predicted probability 'p', and the resulting loss 'L') are dimensionless quantities.

One free problem

Practice Problem

एक मशीन लर्निंग मॉडल एक लेनदेन को धोखाधड़ी (y = 1) के रूप में पहचानता है। मॉडल की धोखाधड़ी की अनुमानित संभावना 0.85 है। इस विशिष्ट भविष्यवाणी के लिए बाइनरी क्रॉस-एन्ट्रॉपी हानि की गणना करें।

Hint: जब y = 1, सूत्र L = -ln(p) तक सरल हो जाता है।

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

संभाव्य आउटपुट के साथ स्पैम क्लासिफायर को प्रशिक्षित करना। के संदर्भ में, बाइनरी क्रॉस-एन्ट्रॉपी मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

Study smarter

Tips

0 या 1 पर अपरिभाषित प्राकृतिक लॉग से बचने के लिए अनुमानित मान p को (0, 1) के भीतर रखें।
यदि भविष्यवाणी लेबल से पूरी तरह मेल खाती है तो हानि 0 होती है।
बहु-वर्ग लक्ष्यों के लिए, इसके बजाय कैटेगोरिकल क्रॉस-एन्ट्रॉपी प्रकार का उपयोग करें।

Avoid these traps

Common Mistakes

p=0 या p=1 का सीधे उपयोग करना।
(1-y) पद भूल जाना।

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Binary cross-entropy measures how well predicted probabilities \hat{y} match true binary labels y, heavily penalising confident wrong predictions.

यह समीकरण बाइनरी वर्गीकरण समस्याओं के लिए मानक हानि फ़ंक्शन है जहाँ आउटपुट 0 और 1 के बीच एक एकल संभावना है। यह तंत्रिका नेटवर्क के अंतिम परत में सिग्मॉइड एक्टिवेशन फ़ंक्शन के साथ जोड़े जाने पर सबसे प्रभावी होता है।

यह अनुकूलन के लिए एक चिकनी, उत्तल सतह प्रदान करता है, जिससे ग्रेडिएंट डिसेंट मॉडल भार को प्रभावी ढंग से अपडेट कर पाता है। आत्मविश्वासपूर्ण लेकिन गलत भविष्यवाणियों को भारी दंडित करके, यह मॉडल को वर्गों के बीच अधिक विशिष्ट सीमाएँ सीखने के लिए मजबूर करता है।

p=0 या p=1 का सीधे उपयोग करना। (1-y) पद भूल जाना।

संभाव्य आउटपुट के साथ स्पैम क्लासिफायर को प्रशिक्षित करना। के संदर्भ में, बाइनरी क्रॉस-एन्ट्रॉपी मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

0 या 1 पर अपरिभाषित प्राकृतिक लॉग से बचने के लिए अनुमानित मान p को (0, 1) के भीतर रखें। यदि भविष्यवाणी लेबल से पूरी तरह मेल खाती है तो हानि 0 होती है। बहु-वर्ग लक्ष्यों के लिए, इसके बजाय कैटेगोरिकल क्रॉस-एन्ट्रॉपी प्रकार का उपयोग करें।

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

Write loss for one example:

Average across N examples:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources