KLダイバージェンス(ベルヌーイ)
D_KL(p||q) ベルヌーイ分布の場合。
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
ベルヌーイKLダイバージェンスは、2つのベルヌーイ分布間の相対エントロピーを測定し、分布qを使用して分布pを近似するときに失われる情報を定量化します。これは非対称な指標であり、共有確率空間上の2つの二値結果の間の統計的距離を特徴付けます。
When to use: この式は、二値分類器の性能を評価する場合や、理論モデルを観測された二値頻度と比較する場合に不可欠です。機械学習では、二値交差エントロピーのような損失関数の要素として、また情報理論的なモデル選択の文脈で頻繁に適用されます。
Why it matters: これは、現実が異なるにもかかわらずある確率集合を仮定することによって生じる「驚き」または追加コストを測定する厳密な方法を提供します。実際には、このダイバージェンスを最小化することでデータ伝送を最適化し、予測モデルが真のデータ生成プロセスに可能な限り近づくことを保証します。
Symbols
Variables
= KL Divergence, p = True Probability, q = Model Probability
Walkthrough
Derivation
ベルヌーイ変数に対するKLダイバージェンスの導出
KLダイバージェンスは真の確率pとモデルの確率qの間の不一致を測定します。
KLダイバージェンスの定義から始めます:
KLは確率の期待対数比です。
X=1とX=0の確率を書け:
ベルヌーイ分布は成功確率によって決定されます。
期待値を展開する:
これはベルヌーイKLダイバージェンスの標準的な閉形式です。
Result
Visual intuition
Graph
Graph type: quadratic
Why it behaves this way
Intuition
2つの異なる棒グラフを想像してください。各グラフは2本の棒(成功と失敗)を持つベルヌーイ分布を表しています。KLダイバージェンスは、最初の棒グラフを説明するために必要な「余分な空間」または「距離」を定量化します。
Signs and relationships
- \ln: 対数関数は確率比を情報量の単位(自然対数の場合、ナット)に変換します。その性質により、`p\ln(p/q)` および `(1-p)((1-p)/(1-q))` という項は常に非負となります。
- p: 真の確率 'p' と '(1-p)' は重み係数として機能します。これらは各結果(成功または失敗)の情報の不一致を保証します。
- +: 2 つの項を合計して、両方の可能な結果(成功と失敗)にわたる総期待情報不一致を説明します。
Free study cues
Insight
Canonical usage
KLダイバージェンスは無次元量であり、使用される対数の底に応じて「ナット」または「ビット」で表されることが多いですが、根本的には単位を持たない情報量の尺度です。
Dimension note
KLダイバージェンスは、確率から計算されるため本質的に無次元です。確率自体が無次元の比であるためです。「ナット」や「ビット」は情報の単位を示すためによく用いられますが、これらは物理単位ではありません。
One free problem
Practice Problem
コインの表が出る真の確率がp = 0.5であることが知られています。研究者がこのコインを推定確率q = 0.2でモデル化した場合、結果として生じるKLダイバージェンスをnatsで計算してください。
Hint: p/q項と(1-p)/(1-q)項の両方に自然対数を使用して、値を式に代入してください。
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
モデルの予測確率が現実からどれだけ異なるかを定量化する際、KLダイバージェンス(ベルヌーイ)は真の確率とモデル確率からKLダイバージェンスを計算するために使用されます。結果は、数値を確実なものとして扱うのではなく、尤度を推定しリスクや意思決定の文ステートメントを作成するのに役立つため重要です。
Study smarter
Tips
- 0 や無限大の自然対数を避けるため、p と q の値が厳密に 0 と 1 の間にあることを確認してください。
- D(p||q) は D(q||p) と等しくないことを覚えておいてください。順序は真の分布 p からモデル q への方向を表します。
- 発散が 0 であることは、2 つの分布が完全に同一であることを常に意味します。
Avoid these traps
Common Mistakes
- p と q を入れ替えること(値が変わります)。
- KLを距離指標と仮定すること(対称ではありません)。
Common questions
Frequently Asked Questions
KLダイバージェンスは真の確率pとモデルの確率qの間の不一致を測定します。
この式は、二値分類器の性能を評価する場合や、理論モデルを観測された二値頻度と比較する場合に不可欠です。機械学習では、二値交差エントロピーのような損失関数の要素として、また情報理論的なモデル選択の文脈で頻繁に適用されます。
これは、現実が異なるにもかかわらずある確率集合を仮定することによって生じる「驚き」または追加コストを測定する厳密な方法を提供します。実際には、このダイバージェンスを最小化することでデータ伝送を最適化し、予測モデルが真のデータ生成プロセスに可能な限り近づくことを保証します。
p と q を入れ替えること(値が変わります)。 KLを距離指標と仮定すること(対称ではありません)。
モデルの予測確率が現実からどれだけ異なるかを定量化する際、KLダイバージェンス(ベルヌーイ)は真の確率とモデル確率からKLダイバージェンスを計算するために使用されます。結果は、数値を確実なものとして扱うのではなく、尤度を推定しリスクや意思決定の文ステートメントを作成するのに役立つため重要です。
0 や無限大の自然対数を避けるため、p と q の値が厳密に 0 と 1 の間にあることを確認してください。 D(p||q) は D(q||p) と等しくないことを覚えておいてください。順序は真の分布 p からモデル q への方向を表します。 発散が 0 であることは、2 つの分布が完全に同一であることを常に意味します。
References
Sources
- Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Wikipedia: Kullback-Leibler divergence
- Cover and Thomas, Elements of Information Theory, 2nd ed.
- Wikipedia: Bernoulli distribution
- IUPAC Gold Book: relative entropy
- Cover and Thomas Elements of Information Theory