Entropie croisée binaire
Fonction de perte pour la classification binaire.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
L'entropie croisée binaire mesure la divergence entre deux distributions de probabilité, généralement les étiquettes réelles et les probabilités prédites dans une tâche de classification binaire. Elle calcule une valeur de perte qui pénalise exponentiellement les prédictions à mesure qu'elles s'éloignent de la valeur réelle de classe.
When to use: Cette équation est la fonction de perte standard pour les problèmes de classification binaire où la sortie est une probabilité unique entre 0 et 1. Elle est la plus efficace lorsqu'elle est associée à une fonction d'activation sigmoïde dans la couche finale d'un réseau de neurones.
Why it matters: Elle fournit une surface lisse et convexe pour l'optimisation, permettant à la descente de gradient de mettre à jour efficacement les poids du modèle. En pénalisant fortement les prédictions confiantes mais incorrectes, elle oblige le modèle à apprendre des frontières plus nettes entre les classes.
Symbols
Variables
L = Loss, y = Actual Label (0/1), p = Predicted Prob
Walkthrough
Derivation
Formule : Entropie croisée binaire (Perte logarithmique)
L'entropie croisée binaire mesure à quel point les probabilités prédites correspondent aux véritables étiquettes binaires y, pénalisant fortement les prédictions incorrectes confiantes.
- Les étiquettes binaires y\in sont dans \{0,1\}.
- Les prédictions sont des probabilités dans (0,1), généralement issues d'une sigmoïde.
- Les logarithmes sont des logarithmes naturels sauf indication contraire (le choix ne modifie que l'échelle).
Écrire la perte pour un seul exemple :
Si y=1, seul -() compte ; si y=0, seul -(1-) compte.
Moyenne sur N exemples :
La perte du jeu de données est la moyenne des pertes individuelles, donnant un seul nombre à minimiser pendant l'entraînement.
Note: En pratique, les probabilités sont écrêtées loin de 0 et 1 pour éviter (0).
Result
Source: Standard curriculum — Machine Learning (Classification Losses)
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
Un paysage dans lequel le modèle cherche à trouver le point le plus bas, représentant une divergence minimale entre ses probabilités prédites et les véritables étiquettes de classe, avec des gradients raides qui pénalisent sévèrement les prédictions erronées avec confiance.
Signs and relationships
- -: Le logarithme népérien d'une probabilité (une valeur entre 0 et 1) est toujours négatif ou nul. Pour garantir que la fonction de perte 'L' soit une valeur non négative qui puisse être minimisée vers zéro, l'expression entière est multipliée.
Free study cues
Insight
Canonical usage
Cette équation calcule une valeur de perte adimensionnelle, représentant la divergence entre une étiquette binaire vraie et une probabilité prédite.
Dimension note
Toutes les variables de la formule d'entropie croisée binaire (étiquette vraie « y », probabilité prédite « p » et perte résultante « L ») sont des grandeurs adimensionnelles.
One free problem
Practice Problem
Un modèle d'apprentissage automatique identifie une transaction comme frauduleuse (y = 1). La probabilité de fraude prédite par le modèle est de 0,85. Calculez la perte d'entropie croisée binaire pour cette prédiction spécifique.
Hint: Quand y = 1, la formule se simplifie en L = -ln(p).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Dans le contexte de Entraîner un filtre anti-spam avec une sortie probabiliste, Entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.
Study smarter
Tips
- Assurez-vous que les valeurs prédites p restent dans (0, 1) pour éviter des logarithmes naturels indéfinis en 0 ou 1.
- La perte vaut 0 uniquement si la prédiction correspond parfaitement à l'étiquette.
- Pour des cibles multiclasse, utilisez plutôt la variante Entropie croisée catégorielle.
Avoid these traps
Common Mistakes
- Utiliser directement p=0 ou p=1.
- Oublier le terme (1-y).
Common questions
Frequently Asked Questions
L'entropie croisée binaire mesure à quel point les probabilités prédites \hat{y} correspondent aux véritables étiquettes binaires y, pénalisant fortement les prédictions incorrectes confiantes.
Cette équation est la fonction de perte standard pour les problèmes de classification binaire où la sortie est une probabilité unique entre 0 et 1. Elle est la plus efficace lorsqu'elle est associée à une fonction d'activation sigmoïde dans la couche finale d'un réseau de neurones.
Elle fournit une surface lisse et convexe pour l'optimisation, permettant à la descente de gradient de mettre à jour efficacement les poids du modèle. En pénalisant fortement les prédictions confiantes mais incorrectes, elle oblige le modèle à apprendre des frontières plus nettes entre les classes.
Utiliser directement p=0 ou p=1. Oublier le terme (1-y).
Dans le contexte de Entraîner un filtre anti-spam avec une sortie probabiliste, Entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.
Assurez-vous que les valeurs prédites p restent dans (0, 1) pour éviter des logarithmes naturels indéfinis en 0 ou 1. La perte vaut 0 uniquement si la prédiction correspond parfaitement à l'étiquette. Pour des cibles multiclasse, utilisez plutôt la variante Entropie croisée catégorielle.
References
Sources
- Wikipedia: Cross-entropy
- Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
- Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
- Standard curriculum — Machine Learning (Classification Losses)