Entropie croisée (Bernoulli)
Entropie croisée entre une vraie Bernoulli(p) et une Bernoulli(q) modélisée.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
L'entropie croisée pour une distribution de Bernoulli quantifie l'écart entre la vraie probabilité binaire p et la probabilité prédite q. Il s'agit de la mesure standard utilisée en classification binaire pour pénaliser les modèles selon l'écart entre leur distribution prédite et la distribution cible réelle.
When to use: Appliquez cette équation lorsque vous évaluez des modèles de classification binaire dans lesquels les résultats sont mutuellement exclusifs. C'est la fonction de perte principale utilisée pendant l'entraînement des modèles de régression logistique et des réseaux de neurones binaires.
Why it matters: Cette fonction est supérieure à l'erreur quadratique moyenne pour la classification parce qu'elle fournit des gradients plus forts lorsque le modèle a tort avec assurance. Cela conduit à une convergence plus rapide pendant les processus d'optimisation comme la descente de gradient.
Symbols
Variables
H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability
Walkthrough
Derivation
Démonstration de l'entropie croisée pour les variables de Bernoulli
L'entropie croisée est l'opposé de l'espérance du log-probabilité sous un modèle q lorsque les données suivent la probabilité réelle p.
- Variable binaire X∈{0,1}.
- Distribution réelle : P(X=1)=p.
- Distribution du modèle : Q(X=1)=q.
Partir de la définition de l'entropie croisée :
L'entropie croisée est l'espérance de l'opposé de la log-vraisemblance sous le modèle Q.
Écrire l'espérance sur X=1 et X=0 :
Avec une probabilité p, vous observez 1 (log-vraisemblance ln q), sinon 0 (log-vraisemblance ln(1−q)).
Result
Why it behaves this way
Intuition
Imaginez deux diagrammes à barres : l'un représentant les probabilités réelles 'p' et '1-p', et l'autre représentant les probabilités prédites du modèle 'q' et '1-q'.
Signs and relationships
- -: Le logarithme d'une probabilité (une valeur comprise entre 0 et 1) est toujours négatif ou nul. Le signe négatif en tête garantit que la perte d'entropie croisée est une valeur positive, ce qui est conventionnel pour les fonctions de perte incluses dans le modèle.
Free study cues
Insight
Canonical usage
Cette équation calcule une valeur sans dimension, souvent interprétée en « nats » lors de l'utilisation du logarithme naturel, quantifiant la divergence entre deux distributions de probabilité.
Dimension note
L'entropie croisée est une mesure sans dimension du nombre moyen de nats (ou de bits, si un logarithme en base 2 est utilisé) nécessaires pour identifier un événement à partir d'une distribution réelle, étant donné un encodage optimisé pour une distribution prédite
One free problem
Practice Problem
Un modèle d'apprentissage automatique prédit une probabilité q = 0.7 qu'une image contienne un chat. L'image réelle contient bien un chat (p = 1.0). Calculez l'entropie croisée binaire pour cette prédiction en nats.
Hint: Comme p = 1, le terme (1-p) devient nul, vous n'avez donc qu'à calculer -ln(q).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Dans le contexte de Log-loss attendu lorsqu'un filtre anti-spam surestime ou sous-estime la probabilité de spam, Entropie croisée (Bernoulli) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.
Study smarter
Tips
- Assurez-vous que la valeur prédite q est strictement comprise entre 0 et 1 pour éviter des opérations logarithmiques indéfinies.
- Notez que p représente généralement l'étiquette de vérité terrain et vaut typiquement 0 ou 1.
- Des valeurs d'entropie croisée plus faibles indiquent un modèle plus proche de la vraie distribution des données.
Avoid these traps
Common Mistakes
- Utiliser des pourcentages au lieu de probabilités (0.7 et non 70).
- Prendre ln de 0 (q doit être strictement compris entre 0 et 1).
Common questions
Frequently Asked Questions
L'entropie croisée est l'opposé de l'espérance du log-probabilité sous un modèle q lorsque les données suivent la probabilité réelle p.
Appliquez cette équation lorsque vous évaluez des modèles de classification binaire dans lesquels les résultats sont mutuellement exclusifs. C'est la fonction de perte principale utilisée pendant l'entraînement des modèles de régression logistique et des réseaux de neurones binaires.
Cette fonction est supérieure à l'erreur quadratique moyenne pour la classification parce qu'elle fournit des gradients plus forts lorsque le modèle a tort avec assurance. Cela conduit à une convergence plus rapide pendant les processus d'optimisation comme la descente de gradient.
Utiliser des pourcentages au lieu de probabilités (0.7 et non 70). Prendre ln de 0 (q doit être strictement compris entre 0 et 1).
Dans le contexte de Log-loss attendu lorsqu'un filtre anti-spam surestime ou sous-estime la probabilité de spam, Entropie croisée (Bernoulli) sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.
Assurez-vous que la valeur prédite q est strictement comprise entre 0 et 1 pour éviter des opérations logarithmiques indéfinies. Notez que p représente généralement l'étiquette de vérité terrain et vaut typiquement 0 ou 1. Des valeurs d'entropie croisée plus faibles indiquent un modèle plus proche de la vraie distribution des données.
References
Sources
- Wikipedia: Cross-entropy
- Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Elements of Information Theory (Cover and Thomas)
- Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
- Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.