KL 발산 (베르누이)
베르누이 분포에 대한 D_KL(p||q).
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
베르누이 KL 발산은 두 베르누이 분포 간의 상대 엔트로피를 측정하여 분포 q를 사용하여 분포 p를 근사할 때 손실되는 정보를 정량화합니다. 공유 확률 공간에서 두 이진 결과 간의 통계적 거리를 특성화하는 비대칭 측정항목입니다.
When to use: 이 방정식은 이진 분류기의 성능을 평가하거나 이론적 모델을 관찰된 이진 빈도와 비교할 때 필수적입니다. 머신러닝에서 이진 교차 엔트로피와 같은 손실 함수의 구성 요소로, 그리고 정보 이론적 모델 선택의 맥락에서 자주 적용됩니다.
Why it matters: 이는 현실이 다른데도 한 확률 집합을 가정함으로써 발생하는 '놀라움' 또는 추가 비용을 측정하는 엄격한 방법을 제공합니다. 실제로 이 발산을 최소화하면 데이터 전송이 최적화되고 예측 모델이 가능한 한 실제 데이터 생성 프로세스에 가까워지도록 보장합니다.
Symbols
Variables
= KL Divergence, p = True Probability, q = Model Probability
Walkthrough
Derivation
베르누이 변수에 대한 KL 발산 유도
KL 발산은 실제 확률 p와 모델 확률 q 간의 불일치를 측정합니다.
KL 발산의 정의에서 시작합니다:
KL은 확률의 기대 로그 비율입니다.
X=1 및 X=0에 대한 확률을 쓰시오:
베르누이 분포는 성공 확률에 의해 결정됩니다.
기댓값을 전개하시오:
이것은 베르누이 KL 발산의 표준 닫힌 형태입니다.
Result
Visual intuition
Graph
Graph type: quadratic
Why it behaves this way
Intuition
두 개의 서로 다른 막대 차트를 상상해 보세요. 각각은 두 개의 막대(성공과 실패)로 구성된 베르누이 분포를 나타냅니다. KL 발산은 첫 번째 막대 차트를 설명하는 데 필요한 '추가 공간' 또는 '거리'를 정량화합니다.
Signs and relationships
- \ln: 로그 함수는 확률 비율을 정보 단위(자연로그의 경우 nats)로 변환합니다. 그 특성으로 인해 `p\ln(p/q)`와 `(1-p)((1-p)/(1-q))` 항은 항상 음수가 아닙니다.
- p: 참 확률 'p'와 '(1-p)'는 가중치 역할을 합니다. 이들은 각 결과(성공 또는 실패)에 대한 정보 차이가
- +: 두 항은 합산되어 두 가능한 결과(성공 및 실패)에 걸친 총 기대 정보 차이를 설명합니다.
Free study cues
Insight
Canonical usage
KL 발산은 무차원량이며, 사용된 로그의 밑에 따라 흔히 '내트' 또는 '비트'로 표현되지만, 근본적으로는 단위 없는 정보 척도를 나타냅니다.
Dimension note
KL 발산은 확률로부터 계산되며, 확률 자체가 무차원 비율이므로 본질적으로 무차원입니다. '내트' 또는 '비트'는 정보의 단위를 나타내기 위해 자주 사용되지만, 물리적 단위는 아닙니다.
One free problem
Practice Problem
동전의 앞면이 나올 실제 확률이 p = 0.5인 것으로 알려져 있습니다. 연구자가 이 동전을 추정 확률 q = 0.2로 모델링하는 경우, 결과 KL 발산을 nats 단위로 계산하십시오.
Hint: p/q 및 (1-p)/(1-q) 항에 대해 자연 로그를 사용하여 값을 공식에 대입하십시오.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
모델의 예측 확률이 현실과 얼마나 다른지 정량화할 때 KL 발산(베르누이)은 실제 확률과 모델 확률로부터 KL 발산을 계산하는 데 사용됩니다. 결과가 중요한 이유는 숫자를 확실성으로 취급하지 않고 가능성을 추정하고 위험이나 결정 진술을 내리는 데 도움이 되기 때문입니다.
Study smarter
Tips
- 0이나 무한대의 자연로그를 피하려면 p와 q 값이 엄격히 0과 1 사이에 있는지 확인하세요.
- D(p||q)는 D(q||p)와 같지 않다는 점을 기억하세요. 순서는 참값 p에서 모델 q로의 방향을 나타냅니다.
- 발산이 0이면 두 분포가 완전히 동일함을 항상 의미합니다.
Avoid these traps
Common Mistakes
- p와 q를 서로 바꾸는 것(값이 달라집니다).
- KL이 거리 측정이라고 가정하는 것 (실제로는 대칭이 아닙니다).
Common questions
Frequently Asked Questions
KL 발산은 실제 확률 p와 모델 확률 q 간의 불일치를 측정합니다.
이 방정식은 이진 분류기의 성능을 평가하거나 이론적 모델을 관찰된 이진 빈도와 비교할 때 필수적입니다. 머신러닝에서 이진 교차 엔트로피와 같은 손실 함수의 구성 요소로, 그리고 정보 이론적 모델 선택의 맥락에서 자주 적용됩니다.
이는 현실이 다른데도 한 확률 집합을 가정함으로써 발생하는 '놀라움' 또는 추가 비용을 측정하는 엄격한 방법을 제공합니다. 실제로 이 발산을 최소화하면 데이터 전송이 최적화되고 예측 모델이 가능한 한 실제 데이터 생성 프로세스에 가까워지도록 보장합니다.
p와 q를 서로 바꾸는 것(값이 달라집니다). KL이 거리 측정이라고 가정하는 것 (실제로는 대칭이 아닙니다).
모델의 예측 확률이 현실과 얼마나 다른지 정량화할 때 KL 발산(베르누이)은 실제 확률과 모델 확률로부터 KL 발산을 계산하는 데 사용됩니다. 결과가 중요한 이유는 숫자를 확실성으로 취급하지 않고 가능성을 추정하고 위험이나 결정 진술을 내리는 데 도움이 되기 때문입니다.
0이나 무한대의 자연로그를 피하려면 p와 q 값이 엄격히 0과 1 사이에 있는지 확인하세요. D(p||q)는 D(q||p)와 같지 않다는 점을 기억하세요. 순서는 참값 p에서 모델 q로의 방향을 나타냅니다. 발산이 0이면 두 분포가 완전히 동일함을 항상 의미합니다.
References
Sources
- Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Wikipedia: Kullback-Leibler divergence
- Cover and Thomas, Elements of Information Theory, 2nd ed.
- Wikipedia: Bernoulli distribution
- IUPAC Gold Book: relative entropy
- Cover and Thomas Elements of Information Theory