Kreuzentropie (Bernoulli)

Core idea

Overview

Die Kreuzentropie für eine Bernoulli-Verteilung quantifiziert die Divergenz zwischen der wahren binären Wahrscheinlichkeit p und der vorhergesagten Wahrscheinlichkeit q. Sie ist die Standardmetrik in der binären Klassifikation, um Modelle danach zu bestrafen, wie stark ihre vorhergesagte Verteilung von der tatsächlichen Zielverteilung abweicht.

When to use: Wende diese Gleichung an, wenn du binäre Klassifikationsmodelle bewertest, bei denen die Ergebnisse gegenseitig ausschließend sind. Sie ist die primäre Verlustfunktion beim Training logistischer Regressionsmodelle und binärer neuronaler Netze.

Why it matters: Diese Funktion ist für Klassifikation dem mittleren quadratischen Fehler überlegen, weil sie stärkere Gradienten liefert, wenn das Modell selbstsicher falsch liegt. Das führt zu schnellerer Konvergenz bei Optimierungsverfahren wie dem Gradientenabstieg.

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)

Cross-Entropy

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

Herleitung der Kreuzentropie für Bernoulli-Variablen

Die Kreuzentropie ist die erwartete negative Log-Wahrscheinlichkeit unter einem Modell q, wenn die Daten einer wahren Wahrscheinlichkeit p folgen.

Binäre Variable X∈{0,1}.
Wahre Verteilung: P(X=1)=p.
Modell-Verteilung: Q(X=1)=q.

1

Beginnen Sie mit der Definition der Kreuzentropie:

Kreuzentropie ist der erwartete negative Log-Likelihood unter dem Modell Q.

H (p, q) = - E_{X \sim p} [ln Q (X)]

2

Aufschreiben der Erwartung über X=1 und X=0:

Mit Wahrscheinlichkeit p beobachtet man 1 (Log-Likelihood ln q), andernfalls 0 (Log-Likelihood ln(1−q)).

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Result

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Why it behaves this way

Intuition

Stellen Sie sich zwei Balkendiagramme vor: eines, das die wahren Wahrscheinlichkeiten 'p' und '1-p' darstellt, und ein anderes für die vorhergesagten Wahrscheinlichkeiten 'q' und '1-q' des Modells.

Term

Ein Maß für die durchschnittliche Anzahl von Bits, die benötigt werden, um ein Ereignis aus einer wahren Verteilung 'p' zu kodieren, wenn ein Code verwendet wird, der für eine vorhergesagte Verteilung 'q' optimiert ist.

Quantifiziert, wie „überrascht“ ein Modell vom tatsächlichen Ergebnis ist, gemittelt über alle möglichen Ergebnisse, wenn seine Vorhersagen 'q' sind und die wahren Wahrscheinlichkeiten 'p' betragen. Ein höherer Wert bedeutet größere Divergenz oder „Überraschung“.

Term

Die wahre Wahrscheinlichkeit der positiven Klasse (z. B. das tatsächliche Label ist 1).

Repräsentiert die tatsächliche, beobachtete Wahrscheinlichkeit des Eintretens eines Ereignisses.

Term

Die vorhergesagte Wahrscheinlichkeit der positiven Klasse (z. B. die Ausgabe des Modells für Label 1).

Repräsentiert die vom Modell geschätzte Wahrscheinlichkeit des Eintretens eines Ereignisses.

Term

Der Logarithmus der vorhergesagten Wahrscheinlichkeit der positiven Klasse.

Dieser Term trägt zum Verlust bei, wenn das wahre Ergebnis positiv ist (p=1). Er bestraft das Modell stark, wenn es ein niedriges 'q' für ein wahres positives Ereignis vorhersagt, da ln(q) für kleine 'q' sehr negativ wird.

Term

Der Logarithmus der vorhergesagten Wahrscheinlichkeit der negativen Klasse.

Dieser Term trägt zum Verlust bei, wenn das wahre Ergebnis negativ ist (p=0). Er bestraft das Modell stark, wenn es ein hohes 'q' (also ein niedriges '1-q') für ein wahres negatives Ereignis vorhersagt.

Signs and relationships

-: Der Logarithmus einer Wahrscheinlichkeit (ein Wert zwischen 0 und 1) ist immer negativ oder Null. Das führende Minuszeichen stellt sicher, dass der Kreuzentropie-Verlust ein positiver Wert ist, wie es für Verlustfunktionen üblich ist.

Free study cues

Insight

Canonical usage

Diese Gleichung berechnet einen dimensionslosen Wert, der bei Verwendung des natürlichen Logarithmus häufig in „Nats" interpretiert wird und die Divergenz zwischen zwei Wahrscheinlichkeitsverteilungen quantifiziert.

Dimension note

Kreuzentropie ist ein dimensionsloses Maß für die durchschnittliche Anzahl von Nats (oder Bits bei Logarithmus zur Basis 2), die zur Identifizierung eines Ereignisses aus einer echten Verteilung benötigt werden, bei einer für eine vorhergesagte Verteilung optimierten Kodierung.

One free problem

Practice Problem

Ein Modell des maschinellen Lernens sagt eine Wahrscheinlichkeit von 0.7 (q) voraus, dass ein Bild eine Katze enthält. Das Bild zeigt tatsächlich eine Katze (p = 1.0). Berechne die binäre Kreuzentropie für diese Vorhersage in Nats.

Hint: Da p = 1 ist, wird der Term (1-p) zu null, sodass du nur -ln(q) berechnen musst.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Im Kontext von Erwarteter Log-Loss, wenn ein Spamfilter die Spam-Wahrscheinlichkeit über- oder unterschätzt wird Kreuzentropie (Bernoulli) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Study smarter

Tips

Stelle sicher, dass der vorhergesagte Wert q strikt zwischen 0 und 1 liegt, um undefinierte Logarithmen zu vermeiden.
Beachte, dass p normalerweise das Ground-Truth-Label darstellt und typischerweise 0 oder 1 ist.
Niedrigere Kreuzentropiewerte deuten auf ein Modell hin, das stärker mit der wahren Datenverteilung übereinstimmt.

Avoid these traps

Common Mistakes

Prozentwerte statt Wahrscheinlichkeiten verwenden (0.7 statt 70).
ln von 0 berechnen (q muss strikt zwischen 0 und 1 liegen).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Die Kreuzentropie ist die erwartete negative Log-Wahrscheinlichkeit unter einem Modell q, wenn die Daten einer wahren Wahrscheinlichkeit p folgen.

Wende diese Gleichung an, wenn du binäre Klassifikationsmodelle bewertest, bei denen die Ergebnisse gegenseitig ausschließend sind. Sie ist die primäre Verlustfunktion beim Training logistischer Regressionsmodelle und binärer neuronaler Netze.

Diese Funktion ist für Klassifikation dem mittleren quadratischen Fehler überlegen, weil sie stärkere Gradienten liefert, wenn das Modell selbstsicher falsch liegt. Das führt zu schnellerer Konvergenz bei Optimierungsverfahren wie dem Gradientenabstieg.

Prozentwerte statt Wahrscheinlichkeiten verwenden (0.7 statt 70). ln von 0 berechnen (q muss strikt zwischen 0 und 1 liegen).

Im Kontext von Erwarteter Log-Loss, wenn ein Spamfilter die Spam-Wahrscheinlichkeit über- oder unterschätzt wird Kreuzentropie (Bernoulli) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Stelle sicher, dass der vorhergesagte Wert q strikt zwischen 0 und 1 liegt, um undefinierte Logarithmen zu vermeiden. Beachte, dass p normalerweise das Ground-Truth-Label darstellt und typischerweise 0 oder 1 ist. Niedrigere Kreuzentropiewerte deuten auf ein Modell hin, das stärker mit der wahren Datenverteilung übereinstimmt.

References

Sources

Wikipedia: Cross-entropy
Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Elements of Information Theory (Cover and Thomas)
Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

Overview

Variables

Derivation

Beginnen Sie mit der Definition der Kreuzentropie:

Aufschreiben der Erwartung über X=1 und X=0:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Binary Cross-Entropy Loss

KL Divergence (Bernoulli)

Entropy (Shannon)

Frequently Asked Questions

Sources