Entropie croisée binaire

Core idea

Overview

L'entropie croisée binaire mesure la divergence entre deux distributions de probabilité, généralement les étiquettes réelles et les probabilités prédites dans une tâche de classification binaire. Elle calcule une valeur de perte qui pénalise exponentiellement les prédictions à mesure qu'elles s'éloignent de la valeur réelle de classe.

When to use: Cette équation est la fonction de perte standard pour les problèmes de classification binaire où la sortie est une probabilité unique entre 0 et 1. Elle est la plus efficace lorsqu'elle est associée à une fonction d'activation sigmoïde dans la couche finale d'un réseau de neurones.

Why it matters: Elle fournit une surface lisse et convexe pour l'optimisation, permettant à la descente de gradient de mettre à jour efficacement les poids du modèle. En pénalisant fortement les prédictions confiantes mais incorrectes, elle oblige le modèle à apprendre des frontières plus nettes entre les classes.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

Formule : Entropie croisée binaire (Perte logarithmique)

L'entropie croisée binaire mesure à quel point les probabilités prédites $\overset{y}{^}$ correspondent aux véritables étiquettes binaires y, pénalisant fortement les prédictions incorrectes confiantes.

Les étiquettes binaires y\in sont dans \{0,1\}.
Les prédictions $\overset{y}{^}$ sont des probabilités dans (0,1), généralement issues d'une sigmoïde.
Les logarithmes sont des logarithmes naturels sauf indication contraire (le choix ne modifie que l'échelle).

1

Écrire la perte pour un seul exemple :

Si y=1, seul - $ln$ ( $\overset{y}{^}$ ) compte ; si y=0, seul - $ln$ (1- $\overset{y}{^}$ ) compte.

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

Moyenne sur N exemples :

La perte du jeu de données est la moyenne des pertes individuelles, donnant un seul nombre à minimiser pendant l'entraînement.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: En pratique, les probabilités sont écrêtées loin de 0 et 1 pour éviter $ln$ (0).

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Un paysage dans lequel le modèle cherche à trouver le point le plus bas, représentant une divergence minimale entre ses probabilités prédites et les véritables étiquettes de classe, avec des gradients raides qui pénalisent sévèrement les prédictions erronées avec confiance.

Term

Une valeur scalaire quantifiant l'écart entre la véritable étiquette et la probabilité prédite pour un seul point de données.

Une valeur plus élevée indique une moins bonne prédiction, ce qui signifie que le modèle était plus 'erroné' ou moins 'confiant dans la bonne réponse'.

Term

La véritable étiquette de classe binaire correcte (0 ou 1) pour les données d'entrée.

C'est la valeur cible que le modèle essaie d'apprendre et de prédire.

Term

La probabilité estimée par le modèle que la véritable étiquette 'y' soit 1.

Représente le niveau de confiance du modèle pour la classe positive.

Term

Le logarithme népérien de la probabilité prédite 'p'.

Pénalise d'autant plus le modèle que sa probabilité prédite 'p' pour la vraie classe s'approche de 0 (c'est-à-dire une prédiction erronée avec confiance).

Term

Le logarithme népérien de la probabilité que la véritable étiquette 'y' soit 0 (c'est-à-dire 1-p).

Pénalise d'autant plus le modèle que sa probabilité prédite 'p' pour la vraie classe s'approche de 1 lorsque la vraie classe est 0 (c'est-à-dire une prédiction erronée avec confiance).

Signs and relationships

-: Le logarithme népérien d'une probabilité (une valeur entre 0 et 1) est toujours négatif ou nul. Pour garantir que la fonction de perte 'L' soit une valeur non négative qui puisse être minimisée vers zéro, l'expression entière est multipliée.

Free study cues

Insight

Canonical usage

Cette équation calcule une valeur de perte adimensionnelle, représentant la divergence entre une étiquette binaire vraie et une probabilité prédite.

Dimension note

Toutes les variables de la formule d'entropie croisée binaire (étiquette vraie « y », probabilité prédite « p » et perte résultante « L ») sont des grandeurs adimensionnelles.

One free problem

Practice Problem

Un modèle d'apprentissage automatique identifie une transaction comme frauduleuse (y = 1). La probabilité de fraude prédite par le modèle est de 0,85. Calculez la perte d'entropie croisée binaire pour cette prédiction spécifique.

Hint: Quand y = 1, la formule se simplifie en L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Dans le contexte de Entraîner un filtre anti-spam avec une sortie probabiliste, Entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Study smarter

Tips

Assurez-vous que les valeurs prédites p restent dans (0, 1) pour éviter des logarithmes naturels indéfinis en 0 ou 1.
La perte vaut 0 uniquement si la prédiction correspond parfaitement à l'étiquette.
Pour des cibles multiclasse, utilisez plutôt la variante Entropie croisée catégorielle.

Avoid these traps

Common Mistakes

Utiliser directement p=0 ou p=1.
Oublier le terme (1-y).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

L'entropie croisée binaire mesure à quel point les probabilités prédites \hat{y} correspondent aux véritables étiquettes binaires y, pénalisant fortement les prédictions incorrectes confiantes.

Cette équation est la fonction de perte standard pour les problèmes de classification binaire où la sortie est une probabilité unique entre 0 et 1. Elle est la plus efficace lorsqu'elle est associée à une fonction d'activation sigmoïde dans la couche finale d'un réseau de neurones.

Elle fournit une surface lisse et convexe pour l'optimisation, permettant à la descente de gradient de mettre à jour efficacement les poids du modèle. En pénalisant fortement les prédictions confiantes mais incorrectes, elle oblige le modèle à apprendre des frontières plus nettes entre les classes.

Utiliser directement p=0 ou p=1. Oublier le terme (1-y).

Dans le contexte de Entraîner un filtre anti-spam avec une sortie probabiliste, Entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Assurez-vous que les valeurs prédites p restent dans (0, 1) pour éviter des logarithmes naturels indéfinis en 0 ou 1. La perte vaut 0 uniquement si la prédiction correspond parfaitement à l'étiquette. Pour des cibles multiclasse, utilisez plutôt la variante Entropie croisée catégorielle.

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

Écrire la perte pour un seul exemple :

Moyenne sur N exemples :

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources