Kreuzentropie (Bernoulli)
Kreuzentropie zwischen wahrer Bernoulli(p)- und Modell-Bernoulli(q)-Verteilung.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
Die Kreuzentropie für eine Bernoulli-Verteilung quantifiziert die Divergenz zwischen der wahren binären Wahrscheinlichkeit p und der vorhergesagten Wahrscheinlichkeit q. Sie ist die Standardmetrik in der binären Klassifikation, um Modelle danach zu bestrafen, wie stark ihre vorhergesagte Verteilung von der tatsächlichen Zielverteilung abweicht.
When to use: Wende diese Gleichung an, wenn du binäre Klassifikationsmodelle bewertest, bei denen die Ergebnisse gegenseitig ausschließend sind. Sie ist die primäre Verlustfunktion beim Training logistischer Regressionsmodelle und binärer neuronaler Netze.
Why it matters: Diese Funktion ist für Klassifikation dem mittleren quadratischen Fehler überlegen, weil sie stärkere Gradienten liefert, wenn das Modell selbstsicher falsch liegt. Das führt zu schnellerer Konvergenz bei Optimierungsverfahren wie dem Gradientenabstieg.
Symbols
Variables
H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability
Walkthrough
Derivation
Herleitung der Kreuzentropie für Bernoulli-Variablen
Die Kreuzentropie ist die erwartete negative Log-Wahrscheinlichkeit unter einem Modell q, wenn die Daten einer wahren Wahrscheinlichkeit p folgen.
- Binäre Variable X∈{0,1}.
- Wahre Verteilung: P(X=1)=p.
- Modell-Verteilung: Q(X=1)=q.
Beginnen Sie mit der Definition der Kreuzentropie:
Kreuzentropie ist der erwartete negative Log-Likelihood unter dem Modell Q.
Aufschreiben der Erwartung über X=1 und X=0:
Mit Wahrscheinlichkeit p beobachtet man 1 (Log-Likelihood ln q), andernfalls 0 (Log-Likelihood ln(1−q)).
Result
Why it behaves this way
Intuition
Stellen Sie sich zwei Balkendiagramme vor: eines, das die wahren Wahrscheinlichkeiten 'p' und '1-p' darstellt, und ein anderes für die vorhergesagten Wahrscheinlichkeiten 'q' und '1-q' des Modells.
Signs and relationships
- -: Der Logarithmus einer Wahrscheinlichkeit (ein Wert zwischen 0 und 1) ist immer negativ oder Null. Das führende Minuszeichen stellt sicher, dass der Kreuzentropie-Verlust ein positiver Wert ist, wie es für Verlustfunktionen üblich ist.
Free study cues
Insight
Canonical usage
Diese Gleichung berechnet einen dimensionslosen Wert, der bei Verwendung des natürlichen Logarithmus häufig in „Nats" interpretiert wird und die Divergenz zwischen zwei Wahrscheinlichkeitsverteilungen quantifiziert.
Dimension note
Kreuzentropie ist ein dimensionsloses Maß für die durchschnittliche Anzahl von Nats (oder Bits bei Logarithmus zur Basis 2), die zur Identifizierung eines Ereignisses aus einer echten Verteilung benötigt werden, bei einer für eine vorhergesagte Verteilung optimierten Kodierung.
One free problem
Practice Problem
Ein Modell des maschinellen Lernens sagt eine Wahrscheinlichkeit von 0.7 (q) voraus, dass ein Bild eine Katze enthält. Das Bild zeigt tatsächlich eine Katze (p = 1.0). Berechne die binäre Kreuzentropie für diese Vorhersage in Nats.
Hint: Da p = 1 ist, wird der Term (1-p) zu null, sodass du nur -ln(q) berechnen musst.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Im Kontext von Erwarteter Log-Loss, wenn ein Spamfilter die Spam-Wahrscheinlichkeit über- oder unterschätzt wird Kreuzentropie (Bernoulli) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.
Study smarter
Tips
- Stelle sicher, dass der vorhergesagte Wert q strikt zwischen 0 und 1 liegt, um undefinierte Logarithmen zu vermeiden.
- Beachte, dass p normalerweise das Ground-Truth-Label darstellt und typischerweise 0 oder 1 ist.
- Niedrigere Kreuzentropiewerte deuten auf ein Modell hin, das stärker mit der wahren Datenverteilung übereinstimmt.
Avoid these traps
Common Mistakes
- Prozentwerte statt Wahrscheinlichkeiten verwenden (0.7 statt 70).
- ln von 0 berechnen (q muss strikt zwischen 0 und 1 liegen).
Common questions
Frequently Asked Questions
Die Kreuzentropie ist die erwartete negative Log-Wahrscheinlichkeit unter einem Modell q, wenn die Daten einer wahren Wahrscheinlichkeit p folgen.
Wende diese Gleichung an, wenn du binäre Klassifikationsmodelle bewertest, bei denen die Ergebnisse gegenseitig ausschließend sind. Sie ist die primäre Verlustfunktion beim Training logistischer Regressionsmodelle und binärer neuronaler Netze.
Diese Funktion ist für Klassifikation dem mittleren quadratischen Fehler überlegen, weil sie stärkere Gradienten liefert, wenn das Modell selbstsicher falsch liegt. Das führt zu schnellerer Konvergenz bei Optimierungsverfahren wie dem Gradientenabstieg.
Prozentwerte statt Wahrscheinlichkeiten verwenden (0.7 statt 70). ln von 0 berechnen (q muss strikt zwischen 0 und 1 liegen).
Im Kontext von Erwarteter Log-Loss, wenn ein Spamfilter die Spam-Wahrscheinlichkeit über- oder unterschätzt wird Kreuzentropie (Bernoulli) verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.
Stelle sicher, dass der vorhergesagte Wert q strikt zwischen 0 und 1 liegt, um undefinierte Logarithmen zu vermeiden. Beachte, dass p normalerweise das Ground-Truth-Label darstellt und typischerweise 0 oder 1 ist. Niedrigere Kreuzentropiewerte deuten auf ein Modell hin, das stärker mit der wahren Datenverteilung übereinstimmt.
References
Sources
- Wikipedia: Cross-entropy
- Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Elements of Information Theory (Cover and Thomas)
- Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
- Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.