Perda de Entropia Cruzada Binária

Q: What are common mistakes with the Perda de Entropia Cruzada Binária formula?

Usar log base 10 (use logaritmo natural). p=0 ou p=1 exatamente (causa infinito).

Q: What is a real-world example of the Perda de Entropia Cruzada Binária formula?

No caso de training a cat/dog classifier, Binary Cross-Entropy Loss é utilizado para calcular Loss from True Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Q: What are some study tips for the Perda de Entropia Cruzada Binária formula?

Evite probabilidades de entrada de exatamente 0 ou 1 para prevenir instabilidade numérica ou logaritmos naturais indefinidos. O valor da perda será 0 apenas se a probabilidade prevista corresponder perfeitamente ao rótulo alvo. Em cenários multiclasse, use Entropia Cruzada Categórica em vez desta variação binária.

Core idea

Overview

A Perda de Entropia Cruzada Binária, ou Perda Logarítmica, quantifica a diferença entre duas distribuições de probabilidade: os rótulos binários reais e as probabilidades previstas. Ela aplica uma penalidade logarítmica pesada a previsões que são confiantes, mas incorretas, guiando algoritmos de otimização como o gradiente descendente a melhorar a precisão do modelo.

When to use: Esta função foi projetada especificamente para tarefas de classificação binária onde a saída é um único valor de probabilidade entre 0 e 1. É mais comumente usada como a função objetivo para regressão logística e redes neurais que utilizam uma função de ativação sigmoide na camada de saída.

Why it matters: Ao contrário do erro de classificação simples, esta função de perda é diferenciável, o que é essencial para a retropropagação no aprendizado profundo. Ela garante que o modelo seja penalizado mais severamente por estar 'confiantemente errado' do que por estar 'incertamente errado', levando a previsões probabilísticas mais robustas.

Symbols

Variables

y = True Label (0/1), p = Predicted Prob, L = Loss

y

True Label (0/1)

Variable

p

Predicted Prob

Variable

L

Loss

Variable

Walkthrough

Derivation

Derivação da Entropia Cruzada Binária (Log Loss)

Deriva a perda de entropia cruzada binária como a log-verossimilhança negativa para dados rotulados independentes de Bernoulli.

Os alvos são rótulos binários: $y_{i}$ $\in$ \{0,1\}.
As observações são independentes (i.i.d. para a fatoração da verossimilhança).
As saídas do modelo satisfazem 0 < $\overset{y}{^}$ _i < 1 (probabilidades).

1

Escrever a Verossimilhança de Bernoulli:

Se $y_{i}$ =1 o termo contribui com $\overset{y}{^}$ _i; se $y_{i}$ =0 contribui com (1- $\overset{y}{^}$ _i). A independência nos permite multiplicar em i.

L = i = 1 \prod N \overset{y}{^}_{i}^{y_{i}} (1 - \overset{y}{^}_{i})^{1 - y_{i}}

2

Tomar a Log-Verossimilhança:

O logaritmo transforma produtos em somas e facilita a otimização.

ln L = i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

3

Converter para um Objetivo de Minimização:

Minimizar a log-verossimilhança média negativa é equivalente a maximizar a verossimilhança; esta é a entropia cruzada binária.

J = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Result

J = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Imagine uma paisagem de penalidade curva onde a 'profundidade' da curva representa a perda. A paisagem é plana (perda zero) quando as previsões correspondem perfeitamente aos rótulos verdadeiros, mas ela desce acentuadamente para vales profundos (alta

Term

O valor de perda calculado para uma única previsão.

Uma perda maior indica uma maior discrepância entre a probabilidade prevista pelo modelo e o resultado real, sinalizando a necessidade de o modelo ajustar seus parâmetros.

Term

O rótulo binário verdadeiro para a instância (0 para classe negativa, 1 para classe positiva).

Representa a verdade fundamental que o modelo visa prever corretamente.

Term

A probabilidade prevista pelo modelo de que o rótulo verdadeiro seja 1 (a classe positiva).

Reflete a confiança do modelo no resultado positivo, variando de 0 (certamente negativo) a 1 (certamente positivo).

Signs and relationships

-: O logaritmo natural de uma probabilidade (um valor entre 0 e 1) é sempre negativo ou zero. O sinal negativo principal inverte esse valor, garantindo que a função de perda seja não negativa e possa ser minimizada durante
ln(): A função logarítmica impõe uma penalidade pesada quando o modelo faz uma previsão confiante, mas incorreta. Por exemplo, se o rótulo verdadeiro 'y' é 1, mas 'p' é muito próximo de 0, 'ln(p)' se torna um número negativo grande

Free study cues

Insight

Canonical usage

A perda de entropia cruzada binária é uma quantidade adimensional que quantifica o erro entre probabilidades previstas e rótulos binários verdadeiros em tarefas de classificação.

Dimension note

A perda de entropia cruzada binária é inerentemente adimensional porque opera sobre probabilidades e rótulos binários, que são quantidades adimensionais.

Ballpark figures

Quantity:

One free problem

Practice Problem

Um modelo de diagnóstico médico prevê uma probabilidade de 0,85 de um paciente ter uma condição específica. Se o paciente realmente tem a condição (y=1), calcule a perda de entropia cruzada binária.

Hint: Como y=1, a fórmula se simplifica para L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de training a cat/dog classifier, Binary Cross-Entropy Loss é utilizado para calcular Loss from True Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Study smarter

Tips

Evite probabilidades de entrada de exatamente 0 ou 1 para prevenir instabilidade numérica ou logaritmos naturais indefinidos.
O valor da perda será 0 apenas se a probabilidade prevista corresponder perfeitamente ao rótulo alvo.
Em cenários multiclasse, use Entropia Cruzada Categórica em vez desta variação binária.

Avoid these traps

Common Mistakes

Usar log base 10 (use logaritmo natural).
p=0 ou p=1 exatamente (causa infinito).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Deriva a perda de entropia cruzada binária como a log-verossimilhança negativa para dados rotulados independentes de Bernoulli.

Esta função foi projetada especificamente para tarefas de classificação binária onde a saída é um único valor de probabilidade entre 0 e 1. É mais comumente usada como a função objetivo para regressão logística e redes neurais que utilizam uma função de ativação sigmoide na camada de saída.

Ao contrário do erro de classificação simples, esta função de perda é diferenciável, o que é essencial para a retropropagação no aprendizado profundo. Ela garante que o modelo seja penalizado mais severamente por estar 'confiantemente errado' do que por estar 'incertamente errado', levando a previsões probabilísticas mais robustas.

Usar log base 10 (use logaritmo natural). p=0 ou p=1 exatamente (causa infinito).

No caso de training a cat/dog classifier, Binary Cross-Entropy Loss é utilizado para calcular Loss from True Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Evite probabilidades de entrada de exatamente 0 ou 1 para prevenir instabilidade numérica ou logaritmos naturais indefinidos. O valor da perda será 0 apenas se a probabilidade prevista corresponder perfeitamente ao rótulo alvo. Em cenários multiclasse, use Entropia Cruzada Categórica em vez desta variação binária.

References

Sources

Wikipedia: Cross-entropy
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Deep Learning (Goodfellow, Bengio, Courville)
Pattern Recognition and Machine Learning (Bishop)
Goodfellow, Bengio, and Courville Deep Learning
Bishop Pattern Recognition and Machine Learning
Standard curriculum — Machine Learning

Overview

Variables

Derivation

Escrever a Verossimilhança de Bernoulli:

Tomar a Log-Verossimilhança:

Converter para um Objetivo de Minimização:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Binary Cross-Entropy

Cross-Entropy (Bernoulli)

Logistic Function

Frequently Asked Questions

Sources