Entropia Cruzada (Bernoulli)

Core idea

Overview

A entropia cruzada para uma distribuição de Bernoulli quantifica a divergência entre a probabilidade binária verdadeira p e a probabilidade prevista q. É a métrica padrão usada em classificação binária para penalizar modelos com base em o quanto sua distribuição prevista difere da distribuição alvo real.

When to use: Aplique esta equação ao avaliar modelos de classificação binária onde os resultados são mutuamente exclusivos. É a principal função de perda usada durante o treinamento de modelos de regressão logística e redes neurais binárias.

Why it matters: Esta função é superior ao erro quadrático médio para classificação porque fornece gradientes mais fortes quando o modelo está confiantemente errado. Isso resulta em uma convergência mais rápida durante processos de otimização como o gradiente descendente.

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)

Cross-Entropy

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

Derivação da Entropia Cruzada para Variáveis de Bernoulli

A entropia cruzada é a log-probabilidade negativa esperada sob um modelo q quando os dados seguem a probabilidade verdadeira p.

Variável binária X∈{0,1}.
Distribuição verdadeira: P(X=1)=p.
Distribuição do modelo: Q(X=1)=q.

1

Começar da definição de entropia cruzada:

A entropia cruzada é a log-verossimilhança negativa esperada sob o modelo Q.

H (p, q) = - E_{X \sim p} [ln Q (X)]

2

Escrever a expectativa para X=1 e X=0:

Com probabilidade p você observa 1 (log-verossimilhança ln q), caso contrário 0 (log-verossimilhança ln(1−q)).

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Result

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Why it behaves this way

Intuition

Imagine dois gráficos de barras: um representando as verdadeiras probabilidades 'p' e '1-p', e outro representando as probabilidades preditas pelo modelo 'q' e '1-q'.

Term

Uma medida do número médio de bits necessários para codificar um evento de uma distribuição verdadeira 'p' ao usar um código otimizado para uma distribuição predita 'q'.

Quantifica o quão 'surpreso' um modelo fica com o resultado real, em média sobre todos os resultados possíveis, quando suas previsões são 'q' e as verdadeiras probabilidades são 'p'. Um valor mais alto significa maior divergência ou 'surpresa'.

Term

A verdadeira probabilidade da classe positiva (por exemplo, o rótulo real é 1).

Representa a probabilidade real e observada de um evento ocorrer.

Term

A probabilidade predita da classe positiva (por exemplo, a saída do modelo para o rótulo 1).

Representa a probabilidade estimada pelo modelo de um evento ocorrer.

Term

O logaritmo da probabilidade predita da classe positiva.

Este termo contribui para a perda quando o resultado verdadeiro é positivo (p=1). Ele penaliza fortemente o modelo quando ele prevê um 'q' baixo para um evento positivo verdadeiro, pois ln(q) se torna muito negativo para 'q' pequeno.

Term

O logaritmo da probabilidade predita da classe negativa.

Este termo contribui para a perda quando o resultado verdadeiro é negativo (p=0). Ele penaliza fortemente o modelo quando ele prevê um 'q' alto (significando '1-q' baixo) para um evento negativo verdadeiro.

Signs and relationships

-: O logaritmo de uma probabilidade (um valor entre 0 e 1) é sempre negativo ou zero. O sinal negativo principal garante que a perda de entropia cruzada seja um valor positivo, o que é convencional para funções de perda que são.

Free study cues

Insight

Canonical usage

Esta equação calcula um valor adimensional, frequentemente interpretado em nats ao usar o logaritmo natural, quantificando a divergência entre duas distribuições de probabilidade.

Dimension note

A entropia cruzada é uma medida adimensional do número médio de nats (ou bits, se um logaritmo de base 2 for usado) necessários para identificar um evento de uma distribuição verdadeira, dada uma codificação otimizada para uma distribuição prevista

One free problem

Practice Problem

Um modelo de aprendizado de máquina prevê uma probabilidade de 0.7 (q) de que uma imagem contenha um gato. A imagem real é de fato um gato (p = 1.0). Calcule a entropia cruzada binária para esta previsão em nats.

Hint: Como p = 1, o termo (1-p) se torna zero, o que significa que você só precisa calcular -ln(q).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de expected log-loss when a spam filter over/underestimates spam probability, Cross-Entropy (Bernoulli) é utilizado para calcular Cross-Entropy from True Probability and Model Probability. O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Study smarter

Tips

Certifique-se de que o valor previsto q esteja estritamente entre 0 e 1 para evitar operações de log indefinidas.
Observe que p geralmente representa o rótulo de verdade fundamental e é tipicamente 0 ou 1.
Valores de entropia cruzada mais baixos indicam um modelo que está mais alinhado com a distribuição de dados verdadeira.

Avoid these traps

Common Mistakes

Usar porcentagens em vez de probabilidades (0.7 em vez de 70).
Tirar ln de 0 (q deve ser estritamente entre 0 e 1).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

A entropia cruzada é a log-probabilidade negativa esperada sob um modelo q quando os dados seguem a probabilidade verdadeira p.

Aplique esta equação ao avaliar modelos de classificação binária onde os resultados são mutuamente exclusivos. É a principal função de perda usada durante o treinamento de modelos de regressão logística e redes neurais binárias.

Esta função é superior ao erro quadrático médio para classificação porque fornece gradientes mais fortes quando o modelo está confiantemente errado. Isso resulta em uma convergência mais rápida durante processos de otimização como o gradiente descendente.

Usar porcentagens em vez de probabilidades (0.7 em vez de 70). Tirar ln de 0 (q deve ser estritamente entre 0 e 1).

No caso de expected log-loss when a spam filter over/underestimates spam probability, Cross-Entropy (Bernoulli) é utilizado para calcular Cross-Entropy from True Probability and Model Probability. O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Certifique-se de que o valor previsto q esteja estritamente entre 0 e 1 para evitar operações de log indefinidas. Observe que p geralmente representa o rótulo de verdade fundamental e é tipicamente 0 ou 1. Valores de entropia cruzada mais baixos indicam um modelo que está mais alinhado com a distribuição de dados verdadeira.

References

Sources

Wikipedia: Cross-entropy
Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Elements of Information Theory (Cover and Thomas)
Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

Overview

Variables

Derivation

Começar da definição de entropia cruzada:

Escrever a expectativa para X=1 e X=0:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Binary Cross-Entropy Loss

KL Divergence (Bernoulli)

Entropy (Shannon)

Frequently Asked Questions

Sources