Entropía Cruzada Binaria

Core idea

Overview

La entropía cruzada binaria mide la divergencia entre dos distribuciones de probabilidad, típicamente las etiquetas verdaderas y las probabilidades predichas en una tarea de clasificación binaria. Calcula un valor de pérdida que penaliza exponencialmente las predicciones a medida que divergen del valor de clase real.

When to use: Esta ecuación es la función de pérdida estándar para problemas de clasificación binaria donde la salida es una probabilidad única entre 0 y 1. Es más efectiva cuando se combina con una función de activación sigmoide en la capa final de una red neuronal.

Why it matters: Proporciona una superficie suave y convexa para la optimización, lo que permite que el descenso de gradiente actualice de manera efectiva los pesos del modelo. Al penalizar fuertemente las predicciones seguras pero incorrectas, obliga al modelo a aprender límites más distintos entre clases.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

Fórmula: Entropía Cruzada Binaria (Pérdida Logarítmica)

La entropía cruzada binaria mide cuán bien las probabilidades predichas $\overset{y}{^}$ coinciden con las etiquetas binarias verdaderas y, penaliza fuertemente las predicciones erróneas seguras.

Las etiquetas binarias y\in\{0,1\}.
Las predicciones $\overset{y}{^}$ son probabilidades en (0,1), comúnmente de una sigmoide.
Los logaritmos son logaritmos naturales a menos que se especifique lo contrario (la elección solo cambia la escala).

1

Escribir la pérdida para un ejemplo:

Si y=1, solo importa - $ln$ ( $\overset{y}{^}$ ); si y=0, solo importa - $ln$ (1- $\overset{y}{^}$ ).

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

Promediar entre N ejemplos:

La pérdida del conjunto de datos es la media de las pérdidas individuales, lo que da un único número a minimizar durante el entrenamiento.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: En la práctica, las probabilidades se recortan para evitar 0 y 1 para evitar $ln$ (0).

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Un paisaje donde el modelo busca encontrar el punto más bajo, representando la divergencia mínima entre sus probabilidades predichas y las etiquetas de clase verdaderas, con gradientes empinados que penalizan severamente las predicciones incorrectas y seguras.

Term

Un valor escalar que cuantifica la discrepancia entre la etiqueta verdadera y la probabilidad predicha para un solo punto de datos.

Un valor más alto indica una predicción peor, lo que significa que el modelo estuvo más 'equivocado' o menos 'seguro de la respuesta correcta'.

Term

La etiqueta de clase binaria real y correcta (0 o 1) para los datos de entrada.

Este es el valor objetivo que el modelo intenta aprender y predecir.

Term

La probabilidad estimada por el modelo de que la etiqueta verdadera 'y' sea 1.

Representa el nivel de confianza del modelo para la clase positiva.

Term

El logaritmo natural de la probabilidad predicha 'p'.

Penaliza al modelo más severamente a medida que su probabilidad predicha 'p' para la clase verdadera se acerca a 0 (es decir, predicción incorrecta y segura).

Term

El logaritmo natural de la probabilidad de que la etiqueta verdadera 'y' sea 0 (es decir, 1-p).

Penaliza al modelo más severamente a medida que su probabilidad predicha 'p' para la clase verdadera se acerca a 1 cuando la clase verdadera es 0 (es decir, predicción incorrecta y segura).

Signs and relationships

-: El logaritmo natural de una probabilidad (un valor entre 0 y 1) es siempre negativo o cero. Para garantizar que la función de pérdida 'L' sea un valor no negativo que pueda minimizarse hacia cero, toda la expresión se multiplica

Free study cues

Insight

Canonical usage

Esta ecuación calcula un valor de pérdida adimensional, que representa la divergencia entre una etiqueta binaria real y una probabilidad predicha.

Dimension note

Todas las variables de la fórmula de Entropía Cruzada Binaria (etiqueta real 'y', probabilidad predicha 'p' y pérdida resultante 'L') son cantidades adimensionales.

One free problem

Practice Problem

Un modelo de aprendizaje automático identifica una transacción como fraudulenta (y = 1). La probabilidad predicha de fraude por el modelo es 0.85. Calcule la pérdida de entropía cruzada binaria para esta predicción específica.

Hint: Cuando y = 1, la fórmula se simplifica a L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

En el caso de training a spam classifier with probabilistic output, Binary Cross-Entropy se utiliza para calcular Loss from Actual Label (0/1) and Predicted Prob. El resultado importa porque ayuda a evaluar la incertidumbre, la dispersión o la evidencia antes de sacar una conclusión de los datos.

Study smarter

Tips

Asegúrese de que los valores predichos p se mantengan dentro de (0, 1) para evitar logaritmos naturales indefinidos en 0 o 1.
La pérdida es 0 solo si la predicción coincide perfectamente con la etiqueta.
Para objetivos de múltiples clases, use la variante de Entropía Cruzada Categórica en su lugar.

Avoid these traps

Common Mistakes

Usar p=0 o p=1 directamente.
Olvidar el término (1-y).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

La entropía cruzada binaria mide cuán bien las probabilidades predichas \hat{y} coinciden con las etiquetas binarias verdaderas y, penaliza fuertemente las predicciones erróneas seguras.

Esta ecuación es la función de pérdida estándar para problemas de clasificación binaria donde la salida es una probabilidad única entre 0 y 1. Es más efectiva cuando se combina con una función de activación sigmoide en la capa final de una red neuronal.

Proporciona una superficie suave y convexa para la optimización, lo que permite que el descenso de gradiente actualice de manera efectiva los pesos del modelo. Al penalizar fuertemente las predicciones seguras pero incorrectas, obliga al modelo a aprender límites más distintos entre clases.

Usar p=0 o p=1 directamente. Olvidar el término (1-y).

En el caso de training a spam classifier with probabilistic output, Binary Cross-Entropy se utiliza para calcular Loss from Actual Label (0/1) and Predicted Prob. El resultado importa porque ayuda a evaluar la incertidumbre, la dispersión o la evidencia antes de sacar una conclusión de los datos.

Asegúrese de que los valores predichos p se mantengan dentro de (0, 1) para evitar logaritmos naturales indefinidos en 0 o 1. La pérdida es 0 solo si la predicción coincide perfectamente con la etiqueta. Para objetivos de múltiples clases, use la variante de Entropía Cruzada Categórica en su lugar.

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

Escribir la pérdida para un ejemplo:

Promediar entre N ejemplos:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources