Divergência KL (Bernoulli)

Core idea

Overview

A divergência KL de Bernoulli mede a entropia relativa entre duas distribuições de Bernoulli, quantificando a informação perdida quando a distribuição q é usada para aproximar a distribuição p. É uma métrica não simétrica que caracteriza a distância estatística entre dois resultados binários em um espaço de probabilidade compartilhado.

When to use: Esta equação é essencial ao avaliar o desempenho de classificadores binários ou ao comparar um modelo teórico com frequências binárias observadas. É frequentemente aplicada em aprendizado de máquina como um componente de funções de perda como a Entropia Cruzada Binária e no contexto de seleção de modelos informacional-teórica.

Why it matters: Fornece uma maneira rigorosa de medir a 'surpresa' ou o custo extra incorrido ao assumir um conjunto de probabilidades quando a realidade é diferente. Na prática, minimizar essa divergência otimiza a transmissão de dados e garante que os modelos preditivos estejam o mais próximo possível do processo de geração de dados verdadeiro.

Symbols

Variables

$D_{K L}$ = KL Divergence, p = True Probability, q = Model Probability

D_{K L}

KL Divergence

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

Derivação da Divergência KL para Variáveis de Bernoulli

A divergência KL mede a incompatibilidade entre a probabilidade verdadeira p e a probabilidade do modelo q.

Variável binária X∈{0,1}.
Distribuição verdadeira: P(X=1)=p.
Distribuição do modelo: Q(X=1)=q.

1

Começar da definição de divergência KL:

KL é uma razão logarítmica esperada de probabilidades.

D_{K L} (P ∥∥ Q) = E_{X \sim P} [ln \frac{P ( X )}{Q ( X )}]

2

Escrever as probabilidades para X=1 e X=0:

As distribuições de Bernoulli são determinadas por suas probabilidades de sucesso.

P (1) = p, Q (1) = q, P (0) = 1 - p, Q (0) = 1 - q

3

Expandir a expectativa:

Esta é a forma fechada padrão para a divergência KL de Bernoulli.

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Result

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

Imagine dois gráficos de barras distintos, cada um representando uma distribuição de Bernoulli com duas barras (sucesso e fracasso). A divergência KL quantifica o 'espaço extra' ou 'distância' necessária para descrever o primeiro gráfico de barras usando

Term

A probabilidade verdadeira do resultado 'sucesso' para a distribuição de Bernoulli de referência.

Esta é a probabilidade real de um evento ocorrer, conforme observada ou conhecida do processo gerador de dados verdadeiro.

Term

A probabilidade prevista ou aproximada do resultado 'sucesso' para a distribuição Bernoulli do modelo.

Esta é a estimativa ou hipótese do nosso modelo para a probabilidade do mesmo evento.

Term

A divergência de Kullback-Leibler (KL) entre a distribuição verdadeira 'p' e a distribuição aproximada 'q'.

Esta é a 'perda de informação' total ou 'entropia relativa' quando usamos as probabilidades de 'q' para descrever os resultados que realmente seguem 'p'. Um valor mais alto significa que 'q' é uma aproximação pior de 'p'.

Term

A contribuição para a divergência total do resultado 'sucesso'.

Este termo quantifica a 'surpresa' ou discrepância de informação quando a probabilidade verdadeira de sucesso é 'p', mas esperávamos 'q', ponderada pela frequência com que 'p' realmente ocorre.

Term

A contribuição para a divergência total do resultado 'fracasso'.

Semelhante ao termo de sucesso, este mede a 'surpresa' ou discrepância de informação para o resultado 'fracasso', ponderada pela sua probabilidade verdadeira '1-p'.

Signs and relationships

\ln: A função logarítmica transforma razões de probabilidade em unidades de informação (nats, para logaritmo natural). Sua propriedade garante que os termos `p\ln(p/q)` e `(1-p) $ln$ ((1-p)/(1-q))` são sempre não negativos
p: As probabilidades reais 'p' e '(1-p)' atuam como fatores de ponderação. Elas garantem que a discrepância de informação para cada resultado (sucesso ou falha)
+: Os dois termos são somados para contabilizar a discrepância total esperada de informação entre os dois resultados possíveis (sucesso e falha)

Free study cues

Insight

Canonical usage

A Divergência KL é uma quantidade adimensional, frequentemente expressa em nats ou bits dependendo da base do logaritmo usada, mas representa fundamentalmente uma medida adimensional de informação.

Dimension note

A divergência KL é inerentemente adimensional, pois é calculada a partir de probabilidades, que por si só são razões adimensionais. Embora nats ou bits sejam frequentemente usados para denotar a unidade de informação, esses não são unidades físicas.

One free problem

Practice Problem

Sabe-se que uma moeda tem uma probabilidade real de sair cara de p = 0.5. Se um pesquisador modelar essa moeda com uma probabilidade estimada q = 0.2, calcule a Divergência KL resultante em nats.

Hint: Substitua os valores na fórmula usando logaritmos naturais para os termos p/q e (1-p)/(1-q).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) é utilizado para calcular KL Divergence from True Probability and Model Probability. O resultado importa porque ajuda a estimar a probabilidade e formular um julgamento de risco ou decisão em vez de tratar o número como certeza.

Study smarter

Tips

Certifique-se de que os valores de p e q permaneçam estritamente entre 0 e 1 para evitar logaritmos naturais de zero ou infinito.
Lembre-se que D(p||q) não é igual a D(q||p); a ordem representa a direção da verdade p para o modelo q.
Uma divergência de 0 sempre implica que as duas distribuições são perfeitamente idênticas.

Avoid these traps

Common Mistakes

Trocar p e q (altera o valor).
Assumir que KL é uma métrica de distância (não é simétrica).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

A divergência KL mede a incompatibilidade entre a probabilidade verdadeira p e a probabilidade do modelo q.

Esta equação é essencial ao avaliar o desempenho de classificadores binários ou ao comparar um modelo teórico com frequências binárias observadas. É frequentemente aplicada em aprendizado de máquina como um componente de funções de perda como a Entropia Cruzada Binária e no contexto de seleção de modelos informacional-teórica.

Fornece uma maneira rigorosa de medir a 'surpresa' ou o custo extra incorrido ao assumir um conjunto de probabilidades quando a realidade é diferente. Na prática, minimizar essa divergência otimiza a transmissão de dados e garante que os modelos preditivos estejam o mais próximo possível do processo de geração de dados verdadeiro.

Trocar p e q (altera o valor). Assumir que KL é uma métrica de distância (não é simétrica).

No caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) é utilizado para calcular KL Divergence from True Probability and Model Probability. O resultado importa porque ajuda a estimar a probabilidade e formular um julgamento de risco ou decisão em vez de tratar o número como certeza.

Certifique-se de que os valores de p e q permaneçam estritamente entre 0 e 1 para evitar logaritmos naturais de zero ou infinito. Lembre-se que D(p||q) não é igual a D(q||p); a ordem representa a direção da verdade p para o modelo q. Uma divergência de 0 sempre implica que as duas distribuições são perfeitamente idênticas.

References

Sources

Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Wikipedia: Kullback-Leibler divergence
Cover and Thomas, Elements of Information Theory, 2nd ed.
Wikipedia: Bernoulli distribution
IUPAC Gold Book: relative entropy
Cover and Thomas Elements of Information Theory

Overview

Variables

Derivation

Começar da definição de divergência KL:

Escrever as probabilidades para X=1 e X=0:

Expandir a expectativa:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Cross-Entropy (Bernoulli)

Entropy (Shannon)

Mutual Information (2×2)

Frequently Asked Questions

Sources