Entropia Cruzada (Bernoulli)
Entropia cruzada entre Bernoulli(p) verdadeira e Bernoulli(q) do modelo.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
A entropia cruzada para uma distribuição de Bernoulli quantifica a divergência entre a probabilidade binária verdadeira p e a probabilidade prevista q. É a métrica padrão usada em classificação binária para penalizar modelos com base em o quanto sua distribuição prevista difere da distribuição alvo real.
When to use: Aplique esta equação ao avaliar modelos de classificação binária onde os resultados são mutuamente exclusivos. É a principal função de perda usada durante o treinamento de modelos de regressão logística e redes neurais binárias.
Why it matters: Esta função é superior ao erro quadrático médio para classificação porque fornece gradientes mais fortes quando o modelo está confiantemente errado. Isso resulta em uma convergência mais rápida durante processos de otimização como o gradiente descendente.
Symbols
Variables
H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability
Walkthrough
Derivation
Derivação da Entropia Cruzada para Variáveis de Bernoulli
A entropia cruzada é a log-probabilidade negativa esperada sob um modelo q quando os dados seguem a probabilidade verdadeira p.
- Variável binária X∈{0,1}.
- Distribuição verdadeira: P(X=1)=p.
- Distribuição do modelo: Q(X=1)=q.
Começar da definição de entropia cruzada:
A entropia cruzada é a log-verossimilhança negativa esperada sob o modelo Q.
Escrever a expectativa para X=1 e X=0:
Com probabilidade p você observa 1 (log-verossimilhança ln q), caso contrário 0 (log-verossimilhança ln(1−q)).
Result
Why it behaves this way
Intuition
Imagine dois gráficos de barras: um representando as verdadeiras probabilidades 'p' e '1-p', e outro representando as probabilidades preditas pelo modelo 'q' e '1-q'.
Signs and relationships
- -: O logaritmo de uma probabilidade (um valor entre 0 e 1) é sempre negativo ou zero. O sinal negativo principal garante que a perda de entropia cruzada seja um valor positivo, o que é convencional para funções de perda que são.
Free study cues
Insight
Canonical usage
Esta equação calcula um valor adimensional, frequentemente interpretado em nats ao usar o logaritmo natural, quantificando a divergência entre duas distribuições de probabilidade.
Dimension note
A entropia cruzada é uma medida adimensional do número médio de nats (ou bits, se um logaritmo de base 2 for usado) necessários para identificar um evento de uma distribuição verdadeira, dada uma codificação otimizada para uma distribuição prevista
One free problem
Practice Problem
Um modelo de aprendizado de máquina prevê uma probabilidade de 0.7 (q) de que uma imagem contenha um gato. A imagem real é de fato um gato (p = 1.0). Calcule a entropia cruzada binária para esta previsão em nats.
Hint: Como p = 1, o termo (1-p) se torna zero, o que significa que você só precisa calcular -ln(q).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
No caso de expected log-loss when a spam filter over/underestimates spam probability, Cross-Entropy (Bernoulli) é utilizado para calcular Cross-Entropy from True Probability and Model Probability. O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.
Study smarter
Tips
- Certifique-se de que o valor previsto q esteja estritamente entre 0 e 1 para evitar operações de log indefinidas.
- Observe que p geralmente representa o rótulo de verdade fundamental e é tipicamente 0 ou 1.
- Valores de entropia cruzada mais baixos indicam um modelo que está mais alinhado com a distribuição de dados verdadeira.
Avoid these traps
Common Mistakes
- Usar porcentagens em vez de probabilidades (0.7 em vez de 70).
- Tirar ln de 0 (q deve ser estritamente entre 0 e 1).
Common questions
Frequently Asked Questions
A entropia cruzada é a log-probabilidade negativa esperada sob um modelo q quando os dados seguem a probabilidade verdadeira p.
Aplique esta equação ao avaliar modelos de classificação binária onde os resultados são mutuamente exclusivos. É a principal função de perda usada durante o treinamento de modelos de regressão logística e redes neurais binárias.
Esta função é superior ao erro quadrático médio para classificação porque fornece gradientes mais fortes quando o modelo está confiantemente errado. Isso resulta em uma convergência mais rápida durante processos de otimização como o gradiente descendente.
Usar porcentagens em vez de probabilidades (0.7 em vez de 70). Tirar ln de 0 (q deve ser estritamente entre 0 e 1).
No caso de expected log-loss when a spam filter over/underestimates spam probability, Cross-Entropy (Bernoulli) é utilizado para calcular Cross-Entropy from True Probability and Model Probability. O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.
Certifique-se de que o valor previsto q esteja estritamente entre 0 e 1 para evitar operações de log indefinidas. Observe que p geralmente representa o rótulo de verdade fundamental e é tipicamente 0 ou 1. Valores de entropia cruzada mais baixos indicam um modelo que está mais alinhado com a distribuição de dados verdadeira.
References
Sources
- Wikipedia: Cross-entropy
- Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Elements of Information Theory (Cover and Thomas)
- Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
- Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.