이진 교차 엔트로피

Core idea

Overview

이진 교차 엔트로피는 주요 입력값과 식의 관계를 정리하고 계산 결과의 의미를 해석하기 위한 설명입니다. 조건, 단위, 전제를 확인하면서 사용하면 결과를 비교, 판단, 추정, 위험 확인과 연결하기 쉽습니다. 필요하면 값을 바꾸어 결과가 어떻게 달라지는지도 확인하세요.

When to use: 이진 교차 엔트로피는 주어진 값에서 필요한 결과를 구해야 할 때 사용합니다. 입력 단위, 범위, 전제 조건을 확인한 뒤 대입하고, 계산 결과를 실제 조건이나 문제의 목적과 비교해 해석하세요.

Why it matters: 이진 교차 엔트로피의 결과는 수치를 비교하고 경향, 제약, 위험, 설계 판단을 설명하는 데 도움이 됩니다. 답을 단독 숫자로만 보지 말고 조건이 바뀔 때의 의미와 타당성도 함께 확인할 수 있습니다.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

공식: 이진 교차 엔트로피 (로그 손실)

이진 교차 엔트로피는 예측된 확률 $\overset{y}{^}$ 가 실제 이진 레이블 y와 얼마나 잘 일치하는지 측정하며, 확신이 있는 잘못된 예측에 큰 페널티를 부과합니다.

예측 $\overset{y}{^}$ 는 (0,1) 범위의 확률이며, 일반적으로 시그모이드에서 나옵니다.
로그는 특별히 명시되지 않는 한 자연 로그입니다 (선택은 스케일만 변경합니다).

1

하나의 예제에 대한 손실 작성:

y=1이면 오직 - $ln$ ( $\overset{y}{^}$ )만 중요합니다; y=0이면 오직 - $ln$ (1- $\overset{y}{^}$ )만 중요합니다.

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

N개의 예제에 대한 평균:

데이터셋 손실은 개별 손실의 평균으로, 훈련 중 최소화할 단일 숫자를 제공합니다.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: 실제로는 $ln$ (0)을 피하기 위해 확률을 0과 1에서 잘라냅니다.

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

모델이 예측 확률과 실제 클래스 레이블 사이의 최소 발산을 나타내는 가장 낮은 지점을 찾으려고 하는 풍경으로, 확신에 찬 잘못된 예측을 심하게 처벌하는 가파른 기울기가 있습니다.

L

단일 데이터 포인트에 대한 실제 레이블과 예측 확률 간의 차이를 정량화하는 스칼라 값입니다.

값이 높을수록 예측이 더 나쁘다는 것을 의미하며, 모델이 더 '틀렸다' 또는 '정답에 대한 확신이 부족하다'는 것을 나타냅니다.

y

입력 데이터에 대한 실제 올바른 이진 클래스 레이블(0 또는 1)입니다.

이는 모델이 학습하고 예측하려는 목표 값입니다.

p

실제 레이블 'y'가 1일 모델의 추정 확률입니다.

양성 클래스에 대한 모델의 신뢰 수준을 나타냅니다.

ln (p)

예측 확률 'p'의 자연 로그입니다.

실제 클래스에 대한 예측 확률 'p'가 0에 가까워질수록(즉, 확신에 찬 잘못된 예측) 모델을 더 심하게 처벌합니다.

ln (1 - p)

실제 레이블 'y'가 0일 확률(즉, 1-p)의 자연 로그입니다.

실제 클래스가 0일 때 예측 확률 'p'가 1에 가까워질수록(즉, 확신에 찬 잘못된 예측) 모델을 더 심하게 처벌합니다.

Signs and relationships

-: 확률(0과 1 사이의 값)의 자연 로그는 항상 음수 또는 0입니다. 손실 함수 'L'이 0으로 최소화될 수 있는 음수가 아닌 값을 갖도록 하기 위해 전체 표현식에 음수 부호를 곱합니다.

Free study cues

Insight

Canonical usage

이 방정식은 실제 이진 레이블과 예측 확률 사이의 발산을 나타내는 무차원 손실값을 계산합니다.

Dimension note

이진 교차 엔트로피 공식의 모든 변수(실제 레이블 'y', 예측 확률 'p', 결과 손실 'L')는 무차원량입니다.

One free problem

Practice Problem

다음 조건을 사용해 이진 교차 엔트로피을(를) 구하세요. 필요한 값을 식에 대입하고 단위와 자릿수를 확인해 답하세요. 조건: 1, 0.85.

Hint: 이진 교차 엔트로피의 식에 알려진 값을 대입하고 단위, 부호, 분자와 분모의 대응을 확인하면서 계산하세요. 문제에서 주어진 조건을 먼저 정리하면 더 쉽게 풀 수 있습니다.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

이진 교차 엔트로피는 실무, 학습, 분석 상황에서 구체적인 값을 대입해 결과를 확인할 때 사용할 수 있습니다. 계산 결과를 단순한 숫자로만 보지 않고 조건 비교, 판단, 추정, 위험 확인과 연결해 해석하는 데 도움이 됩니다.

Study smarter

Tips

0 또는 1에서 자연로그가 정의되지 않는 것을 피하려면 예측값 p가 (0, 1) 범위에 머무르는지 확인하세요.
예측이 레이블과 완벽히 일치할 때만 손실은 0입니다.
다중 클래스 타깃에는 대신 Categorical Cross-Entropy 변형을 사용하세요.

Avoid these traps

Common Mistakes

p=0 또는 p=1을 직접 사용하는 것.
(1-y) 항을 잊는 것.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

이진 교차 엔트로피는 예측된 확률 \hat{y}가 실제 이진 레이블 y와 얼마나 잘 일치하는지 측정하며, 확신이 있는 잘못된 예측에 큰 페널티를 부과합니다.

이진 교차 엔트로피는 주어진 값에서 필요한 결과를 구해야 할 때 사용합니다. 입력 단위, 범위, 전제 조건을 확인한 뒤 대입하고, 계산 결과를 실제 조건이나 문제의 목적과 비교해 해석하세요.

이진 교차 엔트로피의 결과는 수치를 비교하고 경향, 제약, 위험, 설계 판단을 설명하는 데 도움이 됩니다. 답을 단독 숫자로만 보지 말고 조건이 바뀔 때의 의미와 타당성도 함께 확인할 수 있습니다.

p=0 또는 p=1을 직접 사용하는 것. (1-y) 항을 잊는 것.

이진 교차 엔트로피는 실무, 학습, 분석 상황에서 구체적인 값을 대입해 결과를 확인할 때 사용할 수 있습니다. 계산 결과를 단순한 숫자로만 보지 않고 조건 비교, 판단, 추정, 위험 확인과 연결해 해석하는 데 도움이 됩니다.

0 또는 1에서 자연로그가 정의되지 않는 것을 피하려면 예측값 p가 (0, 1) 범위에 머무르는지 확인하세요. 예측이 레이블과 완벽히 일치할 때만 손실은 0입니다. 다중 클래스 타깃에는 대신 Categorical Cross-Entropy 변형을 사용하세요.

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

하나의 예제에 대한 손실 작성:

N개의 예제에 대한 평균:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources