Divergencia KL (Bernoulli)

Core idea

Overview

La divergencia KL de Bernoulli mide la entropía relativa entre dos distribuciones de Bernoulli, cuantificando la información perdida cuando la distribución q se usa para aproximar la distribución p. Es una métrica no simétrica que caracteriza la distancia estadística entre dos resultados binarios en un espacio de probabilidad compartido.

When to use: Esta ecuación es esencial al evaluar el rendimiento de clasificadores binarios o al comparar un modelo teórico con frecuencias binarias observadas. Se aplica frecuentemente en el aprendizaje automático como un componente de funciones de pérdida como la Entropía Cruzada Binaria y en el contexto de la selección de modelos basada en la teoría de la información.

Why it matters: Proporciona una forma rigurosa de medir la 'sorpresa' o el costo adicional incurrido al asumir un conjunto de probabilidades cuando la realidad es diferente. En la práctica, minimizar esta divergencia optimiza la transmisión de datos y asegura que los modelos predictivos estén lo más cerca posible del proceso real de generación de datos.

Symbols

Variables

$D_{K L}$ = KL Divergence, p = True Probability, q = Model Probability

D_{K L}

KL Divergence

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

Derivacion de Divergencia KL (Bernoulli)

La divergencia KL mide la falta de coincidencia entre la probabilidad verdadera p y la probabilidad del modelo q.

Variable binaria X∈{0,1}.
Distribución verdadera: P(X=1)=p.
Distribución del modelo: Q(X=1)=q.

1

Comenzar desde la definición de divergencia KL:

La KL es una razón logarítmica esperada de probabilidades.

D_{K L} (P ∥∥ Q) = E_{X \sim P} [ln \frac{P ( X )}{Q ( X )}]

2

Escribir las probabilidades para X=1 y X=0:

Las distribuciones de Bernoulli se determinan por sus probabilidades de éxito.

P (1) = p, Q (1) = q, P (0) = 1 - p, Q (0) = 1 - q

3

Expandir la esperanza:

Esta es la forma cerrada estándar para la divergencia KL de Bernoulli.

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Result

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

Imagina dos gráficos de barras distintos, cada uno representando una distribución de Bernoulli con dos barras (éxito y fracaso). La divergencia KL cuantifica el 'espacio extra' o 'distancia' requerido para describir el primer gráfico de barras utilizando

Term

La probabilidad real del resultado 'éxito' para la distribución de Bernoulli de referencia.

Esta es la probabilidad real de que ocurra un evento, según se observa o se conoce del proceso generador de datos real.

Term

La probabilidad predicha o aproximada del resultado 'éxito' para la distribución de Bernoulli del modelo.

Esta es la estimación o hipótesis de nuestro modelo para la probabilidad del mismo evento.

Term

La divergencia de Kullback-Leibler (KL) entre la distribución real 'p' y la distribución aproximada 'q'.

Esta es la 'pérdida de información' total o 'entropía relativa' cuando usamos las probabilidades de 'q' para describir los resultados que realmente siguen a 'p'. Un valor más alto significa que 'q' es una aproximación más pobre de 'p'.

Term

La contribución a la divergencia total del resultado 'éxito'.

Este término cuantifica la 'sorpresa' o discrepancia de información cuando la probabilidad real de éxito es 'p' pero esperábamos 'q', ponderada por la frecuencia con la que realmente ocurre 'p'.

Term

La contribución a la divergencia total del resultado 'fracaso'.

Similar al término de éxito, este mide la 'sorpresa' o discrepancia de información para el resultado 'fracaso', ponderada por su probabilidad real '1-p'.

Signs and relationships

\ln: La función logarítmica transforma las razones de probabilidad en unidades de información (nats, para logaritmo natural). Su propiedad asegura que los términos `p\ln(p/q)` y `(1-p) $ln$ ((1-p)/(1-q))` siempre sean no negativos
p: Las probabilidades verdaderas 'p' y '(1-p)' actúan como factores de ponderación. Aseguran que la discrepancia de información para cada resultado (éxito o fracaso)
+: Los dos términos se suman para tener en cuenta la discrepancia total de información esperada entre ambos resultados posibles (éxito y fracaso)

Free study cues

Insight

Canonical usage

La divergencia KL es una cantidad adimensional, a menudo expresada en "nats" o "bits" según la base del logaritmo utilizada, pero fundamentalmente representa una medida sin unidades de la información.

Dimension note

La divergencia KL es inherentemente adimensional, ya que se calcula a partir de probabilidades, que a su vez son razones adimensionales. Aunque a menudo se usan "nats" o "bits" para indicar la unidad de información, estas no son unidades físicas.

One free problem

Practice Problem

Se sabe que una moneda tiene una probabilidad real de obtener cara de p = 0.5. Si un investigador modela esta moneda con una probabilidad estimada q = 0.2, calcule la Divergencia KL resultante en nats.

Hint: Sustituya los valores en la fórmula usando logaritmos naturales tanto para los términos p/q como para (1-p)/(1-q).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

En el caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) se utiliza para calcular KL Divergence from True Probability and Model Probability. El resultado importa porque ayuda a estimar la probabilidad y formular un juicio de riesgo o decisión en lugar de tratar el número como certeza.

Study smarter

Tips

Asegúrate de que los valores de p y q permanezcan estrictamente entre 0 y 1 para evitar logaritmos naturales de cero o infinito.
Recuerda que D(p||q) no es igual a D(q||p); el orden representa la dirección de la verdad p al modelo q.
Una divergencia de 0 siempre implica que las dos distribuciones son perfectamente idénticas.

Avoid these traps

Common Mistakes

Intercambiar p y q (cambia el valor).
Asumir que KL es una métrica de distancia (no es simétrica).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

La divergencia KL mide la falta de coincidencia entre la probabilidad verdadera p y la probabilidad del modelo q.

Esta ecuación es esencial al evaluar el rendimiento de clasificadores binarios o al comparar un modelo teórico con frecuencias binarias observadas. Se aplica frecuentemente en el aprendizaje automático como un componente de funciones de pérdida como la Entropía Cruzada Binaria y en el contexto de la selección de modelos basada en la teoría de la información.

Proporciona una forma rigurosa de medir la 'sorpresa' o el costo adicional incurrido al asumir un conjunto de probabilidades cuando la realidad es diferente. En la práctica, minimizar esta divergencia optimiza la transmisión de datos y asegura que los modelos predictivos estén lo más cerca posible del proceso real de generación de datos.

Intercambiar p y q (cambia el valor). Asumir que KL es una métrica de distancia (no es simétrica).

En el caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) se utiliza para calcular KL Divergence from True Probability and Model Probability. El resultado importa porque ayuda a estimar la probabilidad y formular un juicio de riesgo o decisión en lugar de tratar el número como certeza.

Asegúrate de que los valores de p y q permanezcan estrictamente entre 0 y 1 para evitar logaritmos naturales de cero o infinito. Recuerda que D(p||q) no es igual a D(q||p); el orden representa la dirección de la verdad p al modelo q. Una divergencia de 0 siempre implica que las dos distribuciones son perfectamente idénticas.

References

Sources

Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Wikipedia: Kullback-Leibler divergence
Cover and Thomas, Elements of Information Theory, 2nd ed.
Wikipedia: Bernoulli distribution
IUPAC Gold Book: relative entropy
Cover and Thomas Elements of Information Theory

Overview

Variables

Derivation

Comenzar desde la definición de divergencia KL:

Escribir las probabilidades para X=1 y X=0:

Expandir la esperanza:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Cross-Entropy (Bernoulli)

Entropy (Shannon)

Mutual Information (2×2)

Frequently Asked Questions

Sources