Data & ComputingTeoria dell'InformazioneUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Entropia Incrociata (Bernoulli)

Entropia incrociata tra Bernoulli vero(p) e Bernoulli modello(q).

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

L'entropia incrociata per una distribuzione di Bernoulli quantifica la divergenza tra la probabilità binaria vera p e la probabilità predetta q. È la metrica standard utilizzata nella classificazione binaria per penalizzare i modelli in base a quanto la loro distribuzione predetta differisce dalla distribuzione target effettiva.

When to use: Applicare questa equazione quando si valutano modelli di classificazione binaria in cui gli esiti sono mutuamente esclusivi. È la funzione di perdita primaria utilizzata durante l'addestramento di modelli di regressione logistica e reti neurali binarie.

Why it matters: Questa funzione è superiore all'errore quadratico medio per la classificazione perché fornisce gradienti più forti quando il modello è fiducioso nell'errore. Ciò si traduce in una convergenza più rapida durante processi di ottimizzazione come la discesa del gradiente.

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)
Cross-Entropy
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

Derivazione della Cross-Entropy per Variabili di Bernoulli

La cross-entropy è la log-probabilità negativa attesa sotto un modello q quando i dati seguono la probabilità vera p.

  • Variabile binaria X∈{0,1}.
  • Distribuzione vera: P(X=1)=p.
  • Distribuzione del modello: Q(X=1)=q.
1

Parti dalla definizione di cross-entropy:

La cross-entropy è la massima verosimiglianza negativa attesa sotto il modello Q.

2

Scrivi l'aspettativa per X=1 e X=0:

Con probabilità p osservi 1 (verosimiglianza log ln q), altrimenti 0 (verosimiglianza log ln(1−q)).

Result

Why it behaves this way

Intuition

Immagina due istogrammi: uno rappresenta le probabilità vere 'p' e '1-p', e l'altro rappresenta le probabilità predette dal modello 'q' e '1-q'.

Term
Nel ruolo della prima voce (H(p,q)), una misura del numero medio di bit necessari per codificare un evento da una distribuzione vera 'p' quando si utilizza un codice ottimizzato per una distribuzione prevista 'q'.
La prima voce (H(p,q)) in Derivazione della Cross-Entropy per Variabili di Bernoulli va letta come il dato che aggancia il testo al modello statistico: prima si decide se sia nota o cercata, poi si controlla come modifica scala, verso e interpretazione del risultato.
Term
Nel ruolo della seconda voce (p), la probabilità vera della classe positiva (ad esempio, l'etichetta effettiva è 1).
Nella seconda voce (p) di Derivazione della Cross-Entropy per Variabili di Bernoulli, il punto pratico consiste nel seguire il passaggio dall'enunciato alla formula; questa quantita non e una lettera isolata, ma un contributo coerente con ipotesi e unita.
Term
Nel ruolo della terza voce (q), la probabilità prevista della classe positiva (ad esempio, l'output del modello per l'etichetta 1).
Usa la terza voce (q) in Derivazione della Cross-Entropy per Variabili di Bernoulli per verificare quale parte del sistema sta cambiando. Se il suo valore aumenta o diminuisce, la relazione indica quale effetto attendersi sul calcolo finale.
Term
Nel ruolo della quarta voce (ln q), il logaritmo della probabilità prevista della classe positiva.
Per la quarta voce (ln q) dentro Derivazione della Cross-Entropy per Variabili di Bernoulli, separa significato fisico e manipolazione algebrica: il simbolo entra nella formula solo dopo aver chiarito contesto, misura e vincoli del problema.
Term
Nel ruolo della quinta voce (ln(1-q)), il logaritmo della probabilità prevista della classe negativa.
La quinta voce (ln(1-q)) e il riferimento locale della formula in Derivazione della Cross-Entropy per Variabili di Bernoulli; leggerla con attenzione evita di scambiare causa, parametro controllato e grandezza ricavata dal modello.

Signs and relationships

  • -: Prima spiegazione: il vincolo - in Derivazione della Cross-Entropy per Variabili di Bernoulli stabilisce quale operazione e ammessa e quale lettura va evitata. Prima di usare il risultato numerico, controlla verso, uguaglianza o condizione limite e mantieni coerente il significato della relazione.

Free study cues

Insight

Canonical usage

Uso canonico: This equation calculates a dimensionless value, often interpreted in 'nats' when using the natural logarithm, quantifying the divergence between two probability distributions.

Dimension note

Nota adimensionale: Cross-entropy is a dimensionless measure of the average number of nats (or bits, if a base-2 logarithm is used) required to identify an event from a true distribution, given an encoding optimized for a predicted

One free problem

Practice Problem

Un modello di machine learning predice una probabilità di 0.7 (q) che un'immagine contenga un gatto. L'immagine reale è effettivamente un gatto (p = 1.0). Calcola l'entropia incrociata binaria per questa predizione in nat.

Hint: Poiché p = 1, il termine (1-p) diventa zero, il che significa che devi solo calcolare -ln(q).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Nel contesto di Log-loss atteso quando un filtro antispam sovrastima o sottostima la probabilità di spam, Entropia Incrociata (Bernoulli) serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Study smarter

Tips

  • Assicurati che il valore predetto q sia strettamente compreso tra 0 e 1 per evitare operazioni logaritmiche indefinite.
  • Nota che p solitamente rappresenta l'etichetta ground truth ed è tipicamente 0 o 1.
  • Valori di entropia incrociata più bassi indicano un modello che è più allineato con la distribuzione dei dati vera.

Avoid these traps

Common Mistakes

  • Usare percentuali invece di probabilità (0.7 non 70).
  • Prendere il logaritmo di 0 (q deve essere strettamente tra 0 e 1).

Common questions

Frequently Asked Questions

La cross-entropy è la log-probabilità negativa attesa sotto un modello q quando i dati seguono la probabilità vera p.

Applicare questa equazione quando si valutano modelli di classificazione binaria in cui gli esiti sono mutuamente esclusivi. È la funzione di perdita primaria utilizzata durante l'addestramento di modelli di regressione logistica e reti neurali binarie.

Questa funzione è superiore all'errore quadratico medio per la classificazione perché fornisce gradienti più forti quando il modello è fiducioso nell'errore. Ciò si traduce in una convergenza più rapida durante processi di ottimizzazione come la discesa del gradiente.

Usare percentuali invece di probabilità (0.7 non 70). Prendere il logaritmo di 0 (q deve essere strettamente tra 0 e 1).

Nel contesto di Log-loss atteso quando un filtro antispam sovrastima o sottostima la probabilità di spam, Entropia Incrociata (Bernoulli) serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Assicurati che il valore predetto q sia strettamente compreso tra 0 e 1 per evitare operazioni logaritmiche indefinite. Nota che p solitamente rappresenta l'etichetta ground truth ed è tipicamente 0 o 1. Valori di entropia incrociata più bassi indicano un modello che è più allineato con la distribuzione dei dati vera.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
  3. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  4. Elements of Information Theory (Cover and Thomas)
  5. Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  6. Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.