Data & ComputingMaschinelles LernenUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Binärer Kreuzentropie-Verlust

Verlustfunktion für Klassifikation.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

Der binäre Kreuzentropie-Verlust oder Log-Loss quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen: den tatsächlichen binären Labels und den vorhergesagten Wahrscheinlichkeiten. Er belegt Vorhersagen, die selbstsicher, aber falsch sind, mit einer starken logarithmischen Strafe und steuert dadurch Optimierungsalgorithmen wie den Gradientenabstieg, um die Modellgenauigkeit zu verbessern.

When to use: Diese Funktion ist speziell für binäre Klassifikationsaufgaben entwickelt, bei denen die Ausgabe ein einzelner Wahrscheinlichkeitswert zwischen 0 und 1 ist. Sie wird am häufigsten als Zielfunktion für logistische Regression und neuronale Netze verwendet, die in der Ausgabeschicht eine Sigmoid-Aktivierungsfunktion nutzen.

Why it matters: Anders als ein einfacher Klassifikationsfehler ist diese Verlustfunktion differenzierbar, was für Backpropagation im Deep Learning essenziell ist. Sie sorgt dafür, dass das Modell stärker bestraft wird, wenn es 'selbstsicher falsch' ist, als wenn es 'unsicher falsch' ist, was zu robusteren probabilistischen Vorhersagen führt.

Symbols

Variables

y = True Label (0/1), p = Predicted Prob, L = Loss

True Label (0/1)
Variable
Predicted Prob
Variable
Loss
Variable

Walkthrough

Derivation

Ableitung: Binäre Kreuzentropie (Log Loss)

Leitet die binäre Kreuzentropie-Verlustfunktion als negative Log-Likelihood für unabhängige, Bernoulli-beschriftete Daten ab.

  • Ziele sind binäre Labels: \{0,1\}.
  • Beobachtungen sind unabhängig (i.i.d. für die Likelihood-Faktorisierung).
  • Modellausgaben erfüllen 0 < _i < 1 (Wahrscheinlichkeiten).
1

Schreiben Sie die Bernoulli-Likelihood:

Wenn =1 trägt der Term _i bei; wenn =0 trägt er (1-_i) bei. Unabhängigkeit ermöglicht die Multiplikation über i.

2

Nehmen Sie die Log-Likelihood:

Logarithmus wandelt Produkte in Summen um und erleichtert die Optimierung.

3

Konvertieren Sie in ein Minimierungsobjektiv:

Die Minimierung der negativen durchschnittlichen Log-Likelihood ist äquivalent zur Maximierung der Likelihood; dies ist die binäre Kreuzentropie.

Result

Source: Standard curriculum — Machine Learning

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Stellen Sie sich eine Verlustlandschaft vor, in der die Höhe den Fehler der Vorhersage darstellt. Die Landschaft ist flach bei Null Verlust, wenn die Vorhersagen perfekt mit den tatsächlichen Labels übereinstimmen, und fällt steil in tiefe Täler beziehungsweise steigt stark an, wenn die Vorhersage sicher, aber falsch ist.

Term
Der berechnete Verlustwert für eine einzelne Vorhersage.
Ein höherer Verlust zeigt eine größere Diskrepanz zwischen der vom Modell vorhergesagten Wahrscheinlichkeit und dem tatsächlichen Ergebnis an und signalisiert die Notwendigkeit, dass das Modell seine Parameter anpasst.
Term
Das wahre binäre Label für die Instanz (0 für die negative Klasse, 1 für die positive Klasse).
Repräsentiert die Grundwahrheit, die das Modell korrekt vorhersagen soll.
Term
Die vom Modell vorhergesagte Wahrscheinlichkeit, dass das wahre Label 1 (die positive Klasse) ist.
Spiegelt das Vertrauen des Modells in das positive Ergebnis wider und reicht von 0 (sicherlich negativ) bis 1 (sicherlich positiv).

Signs and relationships

  • -: Der natürliche Logarithmus einer Wahrscheinlichkeit (ein Wert zwischen 0 und 1) ist immer negativ oder null. Das führende negative Vorzeichen kehrt diesen Wert um, sodass die Verlustfunktion nicht-negativ ist und während der Optimierung minimiert werden kann.
  • ln(): Die logarithmische Funktion auferlegt eine hohe Strafe, wenn das Modell eine zuversichtliche, aber falsche Vorhersage macht. Wenn beispielsweise das wahre Label 'y' 1 ist, aber 'p' sehr nahe bei 0 liegt, wird 'ln(p)' eine große negative Zahl.

Free study cues

Insight

Canonical usage

Der binäre kreuzentropische Verlust ist eine dimensionslose Größe, die den Fehler zwischen vorhergesagten Wahrscheinlichkeiten und echten binären Etiketten bei Klassifikationsaufgaben quantifiziert.

Dimension note

Der binäre kreuzentropische Verlust ist von Natur aus dimensionslos, da er mit Wahrscheinlichkeiten und binären Etiketten arbeitet, die dimensionslose Größen sind.

Ballpark figures

  • Quantity:

One free problem

Practice Problem

Ein medizinisches Diagnosemodell sagt mit einer Wahrscheinlichkeit von 0.85 voraus, dass ein Patient eine bestimmte Erkrankung hat. Wenn der Patient die Erkrankung tatsächlich hat (y=1), berechne den binären Kreuzentropie-Verlust.

Hint: Da y=1 gilt, vereinfacht sich die Formel zu L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Im Kontext von Training eines Katzen/Hunde-Klassifikators wird Binärer Kreuzentropie-Verlust verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Study smarter

Tips

  • Vermeide Eingabewahrscheinlichkeiten von genau 0 oder 1, um numerische Instabilität oder undefinierte natürliche Logarithmen zu verhindern.
  • Der Verlustwert ist nur dann 0, wenn die vorhergesagte Wahrscheinlichkeit perfekt mit dem Ziel-Label übereinstimmt.
  • In Mehrklassen-Szenarien solltest du kategoriale Kreuzentropie statt dieser binären Variante verwenden.

Avoid these traps

Common Mistakes

  • Logarithmus zur Basis 10 verwenden (verwende den natürlichen Logarithmus).
  • p=0 oder p=1 genau (führt zu Unendlichkeit).

Common questions

Frequently Asked Questions

Leitet die binäre Kreuzentropie-Verlustfunktion als negative Log-Likelihood für unabhängige, Bernoulli-beschriftete Daten ab.

Diese Funktion ist speziell für binäre Klassifikationsaufgaben entwickelt, bei denen die Ausgabe ein einzelner Wahrscheinlichkeitswert zwischen 0 und 1 ist. Sie wird am häufigsten als Zielfunktion für logistische Regression und neuronale Netze verwendet, die in der Ausgabeschicht eine Sigmoid-Aktivierungsfunktion nutzen.

Anders als ein einfacher Klassifikationsfehler ist diese Verlustfunktion differenzierbar, was für Backpropagation im Deep Learning essenziell ist. Sie sorgt dafür, dass das Modell stärker bestraft wird, wenn es 'selbstsicher falsch' ist, als wenn es 'unsicher falsch' ist, was zu robusteren probabilistischen Vorhersagen führt.

Logarithmus zur Basis 10 verwenden (verwende den natürlichen Logarithmus). p=0 oder p=1 genau (führt zu Unendlichkeit).

Im Kontext von Training eines Katzen/Hunde-Klassifikators wird Binärer Kreuzentropie-Verlust verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Vermeide Eingabewahrscheinlichkeiten von genau 0 oder 1, um numerische Instabilität oder undefinierte natürliche Logarithmen zu verhindern. Der Verlustwert ist nur dann 0, wenn die vorhergesagte Wahrscheinlichkeit perfekt mit dem Ziel-Label übereinstimmt. In Mehrklassen-Szenarien solltest du kategoriale Kreuzentropie statt dieser binären Variante verwenden.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Deep Learning (Goodfellow, Bengio, Courville)
  4. Pattern Recognition and Machine Learning (Bishop)
  5. Goodfellow, Bengio, and Courville Deep Learning
  6. Bishop Pattern Recognition and Machine Learning
  7. Standard curriculum — Machine Learning