Data & Computing情報理論University
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

クロスエントロピー(ベルヌーイ)

真のベルヌーイ分布(p)とモデルのベルヌーイ分布(q)の間のクロスエントロピー。

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

ベルヌーイ分布の交差エントロピーは、真の二値確率pと予測確率qの間の発散を定量化します。これは二値分類で使用される標準的な指標であり、予測分布が実際のターゲット分布からどれだけ異なるかに基づいてモデルを罰します。

When to use: 結果が相互に排他的な二値分類モデルを評価する場合にこの式を適用します。これは、ロジスティック回帰モデルや二値ニューラルネットワークの訓練中に使用される主要な損失関数です。

Why it matters: この関数は分類において平均二乗誤差よりも優れており、モデルが自信を持って間違っている場合により強い勾配を提供します。これにより、勾配降下法のような最適化プロセス中の収束が速くなります。

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)
Cross-Entropy
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

ベルヌーイ変数に対する交差エントロピーの導出

交差エントロピーは、データが真の確率pに従う場合のモデルqの下での期待負の対数確率です。

1

交差エントロピーの定義から始めます:

交差エントロピーはモデルQの下での期待負の対数尤度です。

2

X=1とX=0に関する期待値を書きます:

確率pで1を観測し(対数尤度ln q)、それ以外では0を観測します(対数尤度ln(1−q))。

Result

Why it behaves this way

Intuition

2つの棒グラフを想像してください。1つは真の確率 'p' と '1-p' を表し、もう1つはモデルの予測確率 'q' と '1-q' を表します。

H(p,q)
予測分布 'q' に最適化された符号を使用して、真の分布 'p' からの事象を符号化するために必要な平均ビット数の尺度。
モデルの予測が 'q' で真の確率が 'p' の場合に、実際の結果に対するモデルの「驚き」をすべての可能な結果にわたって平均したものを定量化します。値が大きいほど、より大きな乖離または「驚き」を意味します。
正のクラスの真の確率(例えば、実際のラベルが1である場合)。
事象が発生する実際の観測された尤度を表します。
正のクラスの予測確率(例えば、ラベル1に対するモデルの出力)。
事象が発生するモデルの推定尤度を表します。
ln q
正のクラスの予測確率の対数。
この項は、真の結果が正(p=1)の場合に損失に寄与します。真の正の事象に対してモデルが低い 'q' を予測すると、小さな 'q' に対して ln(q) が非常に負になるため、モデルに大きなペナルティが課されます。
ln(1-q)
負のクラスの予測確率の対数。
この項は、真の結果が負(p=0)の場合に損失に寄与します。真の負の事象に対してモデルが高い 'q'(つまり低い '1-q')を予測すると、モデルに大きなペナルティが課されます。

Signs and relationships

  • -: 確率(0から1の間の値)の対数は常に負またはゼロです。先頭の負の符号により、クロスエントロピー損失が正の値になることが保証されます。これはモデルに含まれる損失関数の慣例です。

Free study cues

Insight

Canonical usage

この式は、自然対数を使用する場合にはしばしば「ナット」として解釈される無次元値を計算し、2つの確率分布間の乖離を定量化します。

Dimension note

クロスエントロピーは、真の分布から事象を識別するために、予測された分布に最適化された符号化を用いた場合に必要となる平均的なナット数(または2を底とする対数を用いる場合はビット数)を表す無次元の尺度です

One free problem

Practice Problem

機械学習モデルが画像に猫が含まれる確率を0.7 (q) と予測しました。実際の画像は確かに猫です (p = 1.0)。この予測の二値交差エントロピーをnatsで計算してください。

Hint: p = 1なので、(1-p)項はゼロになり、-ln(q)のみを計算すればよいことを意味します。

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

スパムフィルターがスパム確率を過大/過小評価する際の期待ログ損失において、交差エントロピー(ベルヌーイ)は真の確率とモデル確率から交差エントロピーを計算するために使用されます。結果は、出力に依存する前にモデルの振る舞い、アルゴリズムのコスト、または予測品質を評価するのに役立つため重要です。

Study smarter

Tips

  • 未定義の対数演算を避けるため、予測値 q が厳密に 0 と 1 の間にあることを確認してください。
  • p は通常、正解ラベルを表し、一般に 0 または 1 であることに注意してください。
  • クロスエントロピー値が低いほど、モデルが真のデータ分布により近く一致していることを示します。

Avoid these traps

Common Mistakes

  • 確率の代わりにパーセンテージを使用する(0.7ではなく70)。
  • ln(0)を取る(qは0から1の間でなければならない)。

Common questions

Frequently Asked Questions

交差エントロピーは、データが真の確率pに従う場合のモデルqの下での期待負の対数確率です。

結果が相互に排他的な二値分類モデルを評価する場合にこの式を適用します。これは、ロジスティック回帰モデルや二値ニューラルネットワークの訓練中に使用される主要な損失関数です。

この関数は分類において平均二乗誤差よりも優れており、モデルが自信を持って間違っている場合により強い勾配を提供します。これにより、勾配降下法のような最適化プロセス中の収束が速くなります。

確率の代わりにパーセンテージを使用する(0.7ではなく70)。 ln(0)を取る(qは0から1の間でなければならない)。

スパムフィルターがスパム確率を過大/過小評価する際の期待ログ損失において、交差エントロピー(ベルヌーイ)は真の確率とモデル確率から交差エントロピーを計算するために使用されます。結果は、出力に依存する前にモデルの振る舞い、アルゴリズムのコスト、または予測品質を評価するのに役立つため重要です。

未定義の対数演算を避けるため、予測値 q が厳密に 0 と 1 の間にあることを確認してください。 p は通常、正解ラベルを表し、一般に 0 または 1 であることに注意してください。 クロスエントロピー値が低いほど、モデルが真のデータ分布により近く一致していることを示します。

References

Sources

  1. Wikipedia: Cross-entropy
  2. Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
  3. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  4. Elements of Information Theory (Cover and Thomas)
  5. Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  6. Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.