Data & ComputingThéorie de l'informationUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Entropie croisée (Bernoulli)

Entropie croisée entre une vraie Bernoulli(p) et une Bernoulli(q) modélisée.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

L'entropie croisée pour une distribution de Bernoulli quantifie l'écart entre la vraie probabilité binaire p et la probabilité prédite q. Il s'agit de la mesure standard utilisée en classification binaire pour pénaliser les modèles selon l'écart entre leur distribution prédite et la distribution cible réelle.

When to use: Appliquez cette équation lorsque vous évaluez des modèles de classification binaire dans lesquels les résultats sont mutuellement exclusifs. C'est la fonction de perte principale utilisée pendant l'entraînement des modèles de régression logistique et des réseaux de neurones binaires.

Why it matters: Cette fonction est supérieure à l'erreur quadratique moyenne pour la classification parce qu'elle fournit des gradients plus forts lorsque le modèle a tort avec assurance. Cela conduit à une convergence plus rapide pendant les processus d'optimisation comme la descente de gradient.

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)
Cross-Entropy
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

Démonstration de l'entropie croisée pour les variables de Bernoulli

L'entropie croisée est l'opposé de l'espérance du log-probabilité sous un modèle q lorsque les données suivent la probabilité réelle p.

  • Variable binaire X∈{0,1}.
  • Distribution réelle : P(X=1)=p.
  • Distribution du modèle : Q(X=1)=q.
1

Partir de la définition de l'entropie croisée :

L'entropie croisée est l'espérance de l'opposé de la log-vraisemblance sous le modèle Q.

2

Écrire l'espérance sur X=1 et X=0 :

Avec une probabilité p, vous observez 1 (log-vraisemblance ln q), sinon 0 (log-vraisemblance ln(1−q)).

Result

Why it behaves this way

Intuition

Imaginez deux diagrammes à barres : l'un représentant les probabilités réelles 'p' et '1-p', et l'autre représentant les probabilités prédites du modèle 'q' et '1-q'.

Term
Une mesure du nombre moyen de bits nécessaires pour coder un événement à partir d'une distribution réelle 'p' lorsque l'on utilise un code optimisé pour une distribution prédite 'q'.
Quantifie à quel point un modèle est 'surpris' par le résultat réel, en moyenne sur tous les résultats possibles, lorsque ses prédictions sont 'q' et les probabilités réelles sont 'p'. Une valeur plus élevée signifie une plus grande divergence ou 'surprise'.
Term
La probabilité réelle de la classe positive (par exemple, l'étiquette réelle est 1).
Représente la probabilité réelle et observée qu'un événement se produise.
Term
La probabilité prédite de la classe positive (par exemple, la sortie du modèle pour l'étiquette 1).
Représente la probabilité estimée par le modèle qu'un événement se produise.
Term
Le logarithme de la probabilité prédite de la classe positive.
Ce terme contribue à la perte lorsque le résultat réel est positif (p=1). Il pénalise fortement le modèle lorsqu'il prédit un 'q' faible pour un événement réellement positif, car ln(q) devient très négatif pour les petites valeurs de 'q'.
Term
Le logarithme de la probabilité prédite de la classe négative.
Ce terme contribue à la perte lorsque le résultat réel est négatif (p=0). Il pénalise fortement le modèle lorsqu'il prédit un 'q' élevé (ce qui signifie un faible '1-q') pour un événement réellement négatif.

Signs and relationships

  • -: Le logarithme d'une probabilité (une valeur comprise entre 0 et 1) est toujours négatif ou nul. Le signe négatif en tête garantit que la perte d'entropie croisée est une valeur positive, ce qui est conventionnel pour les fonctions de perte incluses dans le modèle.

Free study cues

Insight

Canonical usage

Cette équation calcule une valeur sans dimension, souvent interprétée en « nats » lors de l'utilisation du logarithme naturel, quantifiant la divergence entre deux distributions de probabilité.

Dimension note

L'entropie croisée est une mesure sans dimension du nombre moyen de nats (ou de bits, si un logarithme en base 2 est utilisé) nécessaires pour identifier un événement à partir d'une distribution réelle, étant donné un encodage optimisé pour une distribution prédite

One free problem

Practice Problem

Un modèle d'apprentissage automatique prédit une probabilité q = 0.7 qu'une image contienne un chat. L'image réelle contient bien un chat (p = 1.0). Calculez l'entropie croisée binaire pour cette prédiction en nats.

Hint: Comme p = 1, le terme (1-p) devient nul, vous n'avez donc qu'à calculer -ln(q).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Dans le contexte de Log-loss attendu lorsqu'un filtre anti-spam surestime ou sous-estime la probabilité de spam, Entropie croisée (Bernoulli) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Study smarter

Tips

  • Assurez-vous que la valeur prédite q est strictement comprise entre 0 et 1 pour éviter des opérations logarithmiques indéfinies.
  • Notez que p représente généralement l'étiquette de vérité terrain et vaut typiquement 0 ou 1.
  • Des valeurs d'entropie croisée plus faibles indiquent un modèle plus proche de la vraie distribution des données.

Avoid these traps

Common Mistakes

  • Utiliser des pourcentages au lieu de probabilités (0.7 et non 70).
  • Prendre ln de 0 (q doit être strictement compris entre 0 et 1).

Common questions

Frequently Asked Questions

L'entropie croisée est l'opposé de l'espérance du log-probabilité sous un modèle q lorsque les données suivent la probabilité réelle p.

Appliquez cette équation lorsque vous évaluez des modèles de classification binaire dans lesquels les résultats sont mutuellement exclusifs. C'est la fonction de perte principale utilisée pendant l'entraînement des modèles de régression logistique et des réseaux de neurones binaires.

Cette fonction est supérieure à l'erreur quadratique moyenne pour la classification parce qu'elle fournit des gradients plus forts lorsque le modèle a tort avec assurance. Cela conduit à une convergence plus rapide pendant les processus d'optimisation comme la descente de gradient.

Utiliser des pourcentages au lieu de probabilités (0.7 et non 70). Prendre ln de 0 (q doit être strictement compris entre 0 et 1).

Dans le contexte de Log-loss attendu lorsqu'un filtre anti-spam surestime ou sous-estime la probabilité de spam, Entropie croisée (Bernoulli) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Assurez-vous que la valeur prédite q est strictement comprise entre 0 et 1 pour éviter des opérations logarithmiques indéfinies. Notez que p représente généralement l'étiquette de vérité terrain et vaut typiquement 0 ou 1. Des valeurs d'entropie croisée plus faibles indiquent un modèle plus proche de la vraie distribution des données.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
  3. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  4. Elements of Information Theory (Cover and Thomas)
  5. Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  6. Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.