Perda de Entropia Cruzada Binária
Função de perda para classificação.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
A Perda de Entropia Cruzada Binária, ou Perda Logarítmica, quantifica a diferença entre duas distribuições de probabilidade: os rótulos binários reais e as probabilidades previstas. Ela aplica uma penalidade logarítmica pesada a previsões que são confiantes, mas incorretas, guiando algoritmos de otimização como o gradiente descendente a melhorar a precisão do modelo.
When to use: Esta função foi projetada especificamente para tarefas de classificação binária onde a saída é um único valor de probabilidade entre 0 e 1. É mais comumente usada como a função objetivo para regressão logística e redes neurais que utilizam uma função de ativação sigmoide na camada de saída.
Why it matters: Ao contrário do erro de classificação simples, esta função de perda é diferenciável, o que é essencial para a retropropagação no aprendizado profundo. Ela garante que o modelo seja penalizado mais severamente por estar 'confiantemente errado' do que por estar 'incertamente errado', levando a previsões probabilísticas mais robustas.
Symbols
Variables
y = True Label (0/1), p = Predicted Prob, L = Loss
Walkthrough
Derivation
Derivação da Entropia Cruzada Binária (Log Loss)
Deriva a perda de entropia cruzada binária como a log-verossimilhança negativa para dados rotulados independentes de Bernoulli.
- Os alvos são rótulos binários: \{0,1\}.
- As observações são independentes (i.i.d. para a fatoração da verossimilhança).
- As saídas do modelo satisfazem 0 < _i < 1 (probabilidades).
Escrever a Verossimilhança de Bernoulli:
Se =1 o termo contribui com _i; se =0 contribui com (1-_i). A independência nos permite multiplicar em i.
Tomar a Log-Verossimilhança:
O logaritmo transforma produtos em somas e facilita a otimização.
Converter para um Objetivo de Minimização:
Minimizar a log-verossimilhança média negativa é equivalente a maximizar a verossimilhança; esta é a entropia cruzada binária.
Result
Source: Standard curriculum — Machine Learning
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
Imagine uma paisagem de penalidade curva onde a 'profundidade' da curva representa a perda. A paisagem é plana (perda zero) quando as previsões correspondem perfeitamente aos rótulos verdadeiros, mas ela desce acentuadamente para vales profundos (alta
Signs and relationships
- -: O logaritmo natural de uma probabilidade (um valor entre 0 e 1) é sempre negativo ou zero. O sinal negativo principal inverte esse valor, garantindo que a função de perda seja não negativa e possa ser minimizada durante
- ln(): A função logarítmica impõe uma penalidade pesada quando o modelo faz uma previsão confiante, mas incorreta. Por exemplo, se o rótulo verdadeiro 'y' é 1, mas 'p' é muito próximo de 0, 'ln(p)' se torna um número negativo grande
Free study cues
Insight
Canonical usage
A perda de entropia cruzada binária é uma quantidade adimensional que quantifica o erro entre probabilidades previstas e rótulos binários verdadeiros em tarefas de classificação.
Dimension note
A perda de entropia cruzada binária é inerentemente adimensional porque opera sobre probabilidades e rótulos binários, que são quantidades adimensionais.
Ballpark figures
- Quantity:
One free problem
Practice Problem
Um modelo de diagnóstico médico prevê uma probabilidade de 0,85 de um paciente ter uma condição específica. Se o paciente realmente tem a condição (y=1), calcule a perda de entropia cruzada binária.
Hint: Como y=1, a fórmula se simplifica para L = -ln(p).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
No caso de training a cat/dog classifier, Binary Cross-Entropy Loss é utilizado para calcular Loss from True Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.
Study smarter
Tips
- Evite probabilidades de entrada de exatamente 0 ou 1 para prevenir instabilidade numérica ou logaritmos naturais indefinidos.
- O valor da perda será 0 apenas se a probabilidade prevista corresponder perfeitamente ao rótulo alvo.
- Em cenários multiclasse, use Entropia Cruzada Categórica em vez desta variação binária.
Avoid these traps
Common Mistakes
- Usar log base 10 (use logaritmo natural).
- p=0 ou p=1 exatamente (causa infinito).
Common questions
Frequently Asked Questions
Deriva a perda de entropia cruzada binária como a log-verossimilhança negativa para dados rotulados independentes de Bernoulli.
Esta função foi projetada especificamente para tarefas de classificação binária onde a saída é um único valor de probabilidade entre 0 e 1. É mais comumente usada como a função objetivo para regressão logística e redes neurais que utilizam uma função de ativação sigmoide na camada de saída.
Ao contrário do erro de classificação simples, esta função de perda é diferenciável, o que é essencial para a retropropagação no aprendizado profundo. Ela garante que o modelo seja penalizado mais severamente por estar 'confiantemente errado' do que por estar 'incertamente errado', levando a previsões probabilísticas mais robustas.
Usar log base 10 (use logaritmo natural). p=0 ou p=1 exatamente (causa infinito).
No caso de training a cat/dog classifier, Binary Cross-Entropy Loss é utilizado para calcular Loss from True Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.
Evite probabilidades de entrada de exatamente 0 ou 1 para prevenir instabilidade numérica ou logaritmos naturais indefinidos. O valor da perda será 0 apenas se a probabilidade prevista corresponder perfeitamente ao rótulo alvo. Em cenários multiclasse, use Entropia Cruzada Categórica em vez desta variação binária.
References
Sources
- Wikipedia: Cross-entropy
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Deep Learning (Goodfellow, Bengio, Courville)
- Pattern Recognition and Machine Learning (Bishop)
- Goodfellow, Bengio, and Courville Deep Learning
- Bishop Pattern Recognition and Machine Learning
- Standard curriculum — Machine Learning