Data & Computing정보 이론University
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

크로스 엔트로피 (베르누이)

참 베르누이(p)와 모델 베르누이(q) 사이의 크로스 엔트로피.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

베르누이 분포에 대한 교차 엔트로피는 실제 이진 확률 p와 예측 확률 q 사이의 발산을 정량화합니다. 이는 이진 분류에서 모델의 예측 분포가 실제 목표 분포와 얼마나 다른지에 따라 패널티를 부과하는 표준 측정항목입니다.

When to use: 결과가 상호 배타적인 이진 분류 모델을 평가할 때 이 방정식을 적용하십시오. 이는 로지스틱 회귀 모델 및 이진 신경망 훈련 중에 사용되는 기본 손실 함수입니다.

Why it matters: 이 함수는 분류에서 평균 제곱 오차보다 우수한데, 모델이 자신 있게 틀렸을 때 더 강한 기울기를 제공하기 때문입니다. 이는 경사 하강법과 같은 최적화 과정에서 더 빠른 수렴을 가져옵니다.

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)
Cross-Entropy
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

베르누이 변수에 대한 교차 엔트로피 유도

교차 엔트로피는 데이터가 실제 확률 p를 따를 때 모델 q 하에서의 기대 음의 로그 확률입니다.

1

교차 엔트로피의 정의로부터 시작합니다:

교차 엔트로피는 모델 Q 하에서의 기대 음의 로그 가능도입니다.

2

X=1 및 X=0에 대한 기대값을 나타냅니다:

확률 p로 1을 관찰하고(로그 가능도 ln q), 그렇지 않으면 0을 관찰합니다(로그 가능도 ln(1−q)).

Result

Why it behaves this way

Intuition

두 개의 막대 차트를 상상해 보세요. 하나는 실제 확률 'p'와 '1-p'를 나타내고, 다른 하나는 모델의 예측 확률 'q'와 '1-q'를 나타냅니다.

H(p,q)
실제 분포 'p'에서 사건을 인코딩하는 데 필요한 평균 비트 수를 측정한 것으로, 예측 분포 'q'에 최적화된 코드를 사용할 때의 값입니다.
모델의 예측이 'q'이고 실제 확률이 'p'일 때, 모델이 실제 결과에 대해 얼마나 '놀랐는지'를 모든 가능한 결과에 대해 평균하여 정량화합니다. 값이 클수록 발산 또는 '놀람'이 더 크다는 것을 의미합니다.
양성 클래스의 실제 확률입니다 (예: 실제 레이블이 1인 경우).
사건이 발생할 실제 관측 가능성을 나타냅니다.
양성 클래스의 예측 확률입니다 (예: 레이블 1에 대한 모델의 출력).
모델이 추정한 사건 발생 가능성을 나타냅니다.
ln q
양성 클래스의 예측 확률의 로그입니다.
이 항은 실제 결과가 양성(p=1)일 때 손실에 기여합니다. 작은 'q'에 대해 ln(q)가 매우 음수가 되므로, 실제 양성 사건에 대해 낮은 'q'를 예측할 때 모델을 크게 처벌합니다.
ln(1-q)
음성 클래스의 예측 확률의 로그입니다.
이 항은 실제 결과가 음성(p=0)일 때 손실에 기여합니다. 실제 음성 사건에 대해 높은 'q'(즉, 낮은 '1-q')를 예측할 때 모델을 크게 처벌합니다.

Signs and relationships

  • -: 확률(0과 1 사이의 값)의 로그는 항상 음수 또는 0입니다. 앞에 있는 음수 부호는 교차 엔트로피 손실이 양수 값이 되도록 보장하며, 이는 모델에 포함된 손실 함수의 일반적인 관례입니다.

Free study cues

Insight

Canonical usage

이 방정식은 자연로그를 사용할 때 흔히 '내트(nats)'로 해석되는 무차원 값을 계산하며, 두 확률분포 사이의 차이를 정량화합니다.

Dimension note

교차 엔트로피는 참 분포에서 사건을 식별하는 데 필요한 평균 내트 수(또는 밑이 2인 로그를 사용할 경우 비트 수)를 나타내는 무차원 척도입니다.

One free problem

Practice Problem

머신러닝 모델이 이미지에 고양이가 있을 확률을 0.7(q)로 예측합니다. 실제 이미지는 실제로 고양이입니다(p = 1.0). 이 예측에 대한 이진 교차 엔트로피를 nats 단위로 계산하십시오.

Hint: p = 1이므로 (1-p) 항이 0이 되어 -ln(q)만 계산하면 됩니다.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

스팸 필터가 스팸 확률을 과대 또는 과소 평가할 때의 예상 로그 손실에서 교차 엔트로피(베르누이)는 실제 확률과 모델 확률로부터 교차 엔트로피를 계산하는 데 사용됩니다. 결과가 중요한 이유는 출력에 의존하기 전에 모델 동작, 알고리즘 비용 또는 예측 품질을 평가하는 데 도움이 되기 때문입니다.

Study smarter

Tips

  • 정의되지 않은 로그 연산을 피하려면 예측값 q가 엄격히 0과 1 사이에 있는지 확인하세요.
  • p는 보통 정답 레이블을 나타내며 일반적으로 0 또는 1이라는 점에 유의하세요.
  • 낮은 교차 엔트로피 값은 모델이 실제 데이터 분포와 더 가깝게 정렬되어 있음을 나타냅니다.

Avoid these traps

Common Mistakes

  • 확률 대신 백분율을 사용하는 경우 (70이 아닌 0.7).
  • 0의 ln을 취하는 경우 (q는 엄격히 0과 1 사이여야 함).

Common questions

Frequently Asked Questions

교차 엔트로피는 데이터가 실제 확률 p를 따를 때 모델 q 하에서의 기대 음의 로그 확률입니다.

결과가 상호 배타적인 이진 분류 모델을 평가할 때 이 방정식을 적용하십시오. 이는 로지스틱 회귀 모델 및 이진 신경망 훈련 중에 사용되는 기본 손실 함수입니다.

이 함수는 분류에서 평균 제곱 오차보다 우수한데, 모델이 자신 있게 틀렸을 때 더 강한 기울기를 제공하기 때문입니다. 이는 경사 하강법과 같은 최적화 과정에서 더 빠른 수렴을 가져옵니다.

확률 대신 백분율을 사용하는 경우 (70이 아닌 0.7). 0의 ln을 취하는 경우 (q는 엄격히 0과 1 사이여야 함).

스팸 필터가 스팸 확률을 과대 또는 과소 평가할 때의 예상 로그 손실에서 교차 엔트로피(베르누이)는 실제 확률과 모델 확률로부터 교차 엔트로피를 계산하는 데 사용됩니다. 결과가 중요한 이유는 출력에 의존하기 전에 모델 동작, 알고리즘 비용 또는 예측 품질을 평가하는 데 도움이 되기 때문입니다.

정의되지 않은 로그 연산을 피하려면 예측값 q가 엄격히 0과 1 사이에 있는지 확인하세요. p는 보통 정답 레이블을 나타내며 일반적으로 0 또는 1이라는 점에 유의하세요. 낮은 교차 엔트로피 값은 모델이 실제 데이터 분포와 더 가깝게 정렬되어 있음을 나타냅니다.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
  3. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  4. Elements of Information Theory (Cover and Thomas)
  5. Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  6. Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.