Data & ComputingAprendizado de MáquinaUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Perda de Entropia Cruzada Binária

Função de perda para classificação.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

A Perda de Entropia Cruzada Binária, ou Perda Logarítmica, quantifica a diferença entre duas distribuições de probabilidade: os rótulos binários reais e as probabilidades previstas. Ela aplica uma penalidade logarítmica pesada a previsões que são confiantes, mas incorretas, guiando algoritmos de otimização como o gradiente descendente a melhorar a precisão do modelo.

When to use: Esta função foi projetada especificamente para tarefas de classificação binária onde a saída é um único valor de probabilidade entre 0 e 1. É mais comumente usada como a função objetivo para regressão logística e redes neurais que utilizam uma função de ativação sigmoide na camada de saída.

Why it matters: Ao contrário do erro de classificação simples, esta função de perda é diferenciável, o que é essencial para a retropropagação no aprendizado profundo. Ela garante que o modelo seja penalizado mais severamente por estar 'confiantemente errado' do que por estar 'incertamente errado', levando a previsões probabilísticas mais robustas.

Symbols

Variables

y = True Label (0/1), p = Predicted Prob, L = Loss

True Label (0/1)
Variable
Predicted Prob
Variable
Loss
Variable

Walkthrough

Derivation

Derivação da Entropia Cruzada Binária (Log Loss)

Deriva a perda de entropia cruzada binária como a log-verossimilhança negativa para dados rotulados independentes de Bernoulli.

  • Os alvos são rótulos binários: \{0,1\}.
  • As observações são independentes (i.i.d. para a fatoração da verossimilhança).
  • As saídas do modelo satisfazem 0 < _i < 1 (probabilidades).
1

Escrever a Verossimilhança de Bernoulli:

Se =1 o termo contribui com _i; se =0 contribui com (1-_i). A independência nos permite multiplicar em i.

2

Tomar a Log-Verossimilhança:

O logaritmo transforma produtos em somas e facilita a otimização.

3

Converter para um Objetivo de Minimização:

Minimizar a log-verossimilhança média negativa é equivalente a maximizar a verossimilhança; esta é a entropia cruzada binária.

Result

Source: Standard curriculum — Machine Learning

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Imagine uma paisagem de penalidade curva onde a 'profundidade' da curva representa a perda. A paisagem é plana (perda zero) quando as previsões correspondem perfeitamente aos rótulos verdadeiros, mas ela desce acentuadamente para vales profundos (alta

Term
O valor de perda calculado para uma única previsão.
Uma perda maior indica uma maior discrepância entre a probabilidade prevista pelo modelo e o resultado real, sinalizando a necessidade de o modelo ajustar seus parâmetros.
Term
O rótulo binário verdadeiro para a instância (0 para classe negativa, 1 para classe positiva).
Representa a verdade fundamental que o modelo visa prever corretamente.
Term
A probabilidade prevista pelo modelo de que o rótulo verdadeiro seja 1 (a classe positiva).
Reflete a confiança do modelo no resultado positivo, variando de 0 (certamente negativo) a 1 (certamente positivo).

Signs and relationships

  • -: O logaritmo natural de uma probabilidade (um valor entre 0 e 1) é sempre negativo ou zero. O sinal negativo principal inverte esse valor, garantindo que a função de perda seja não negativa e possa ser minimizada durante
  • ln(): A função logarítmica impõe uma penalidade pesada quando o modelo faz uma previsão confiante, mas incorreta. Por exemplo, se o rótulo verdadeiro 'y' é 1, mas 'p' é muito próximo de 0, 'ln(p)' se torna um número negativo grande

Free study cues

Insight

Canonical usage

A perda de entropia cruzada binária é uma quantidade adimensional que quantifica o erro entre probabilidades previstas e rótulos binários verdadeiros em tarefas de classificação.

Dimension note

A perda de entropia cruzada binária é inerentemente adimensional porque opera sobre probabilidades e rótulos binários, que são quantidades adimensionais.

Ballpark figures

  • Quantity:

One free problem

Practice Problem

Um modelo de diagnóstico médico prevê uma probabilidade de 0,85 de um paciente ter uma condição específica. Se o paciente realmente tem a condição (y=1), calcule a perda de entropia cruzada binária.

Hint: Como y=1, a fórmula se simplifica para L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de training a cat/dog classifier, Binary Cross-Entropy Loss é utilizado para calcular Loss from True Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Study smarter

Tips

  • Evite probabilidades de entrada de exatamente 0 ou 1 para prevenir instabilidade numérica ou logaritmos naturais indefinidos.
  • O valor da perda será 0 apenas se a probabilidade prevista corresponder perfeitamente ao rótulo alvo.
  • Em cenários multiclasse, use Entropia Cruzada Categórica em vez desta variação binária.

Avoid these traps

Common Mistakes

  • Usar log base 10 (use logaritmo natural).
  • p=0 ou p=1 exatamente (causa infinito).

Common questions

Frequently Asked Questions

Deriva a perda de entropia cruzada binária como a log-verossimilhança negativa para dados rotulados independentes de Bernoulli.

Esta função foi projetada especificamente para tarefas de classificação binária onde a saída é um único valor de probabilidade entre 0 e 1. É mais comumente usada como a função objetivo para regressão logística e redes neurais que utilizam uma função de ativação sigmoide na camada de saída.

Ao contrário do erro de classificação simples, esta função de perda é diferenciável, o que é essencial para a retropropagação no aprendizado profundo. Ela garante que o modelo seja penalizado mais severamente por estar 'confiantemente errado' do que por estar 'incertamente errado', levando a previsões probabilísticas mais robustas.

Usar log base 10 (use logaritmo natural). p=0 ou p=1 exatamente (causa infinito).

No caso de training a cat/dog classifier, Binary Cross-Entropy Loss é utilizado para calcular Loss from True Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Evite probabilidades de entrada de exatamente 0 ou 1 para prevenir instabilidade numérica ou logaritmos naturais indefinidos. O valor da perda será 0 apenas se a probabilidade prevista corresponder perfeitamente ao rótulo alvo. Em cenários multiclasse, use Entropia Cruzada Categórica em vez desta variação binária.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Deep Learning (Goodfellow, Bengio, Courville)
  4. Pattern Recognition and Machine Learning (Bishop)
  5. Goodfellow, Bengio, and Courville Deep Learning
  6. Bishop Pattern Recognition and Machine Learning
  7. Standard curriculum — Machine Learning